CodeSSM 해부 (스펙트럼, 타입추론, 커널)

코드 이해 모델을 고를 때 “벤치마크 점수”만 보면 함정이 생깁니다. 이 논문은 CodeSSM이 사전학습에서는 RoCoder보다 코드 구문·의미를 더 잘 잡지만, 타입추론 파인튜닝에서 오히려 일부 관계를 잊는다는 역설을 드러냅니다.

스펙트럼 관점에서 본 CodeSSM의 강점

이 논문의 가장 설득력 있는 지점은 사용자가 말한 것처럼 “비교 + 진단 + 개선”이 한 흐름으로 닫힌다는 점입니다. 우선 비교 파트에서 저자들은 CodeSSM과 RoCoder를 유사 조건에서 학습한 뒤, DirectProbe로 내부 표현을 진단합니다. 그리고 사전학습 상태(pretrained)에서는 CodeSSM이 AST Distance Prediction, AST Sibling Prediction, DFG Edge Prediction 같은 구문·의미 관계를 전반적으로 더 잘 포착한다고 제시합니다. 특히 RoCoder는 후반 레이어에서 표현이 약화되는 경향이 관측되고, RoPE를 썼더라도 이 현상이 충분히 상쇄되지 않는다고 서술합니다.

여기서 중요한 포인트는 “SSM이 원래 로컬에 약하다/글로벌에 강하다” 같은 구호가 아니라, 어떤 코드 관계를 어떤 층이 얼마나 안정적으로 담는지 ‘계량화된 진단’을 붙였다는 점입니다. DirectProbe는 분류기를 따로 학습하는 대신, 토큰 쌍의 표현을 군집화해 라벨별 분리 가능성을 평가합니다. 이 접근은 프로브가 과하게 학습해버려 해석이 왜곡되는 문제를 줄이려는 의도가 깔려 있습니다.

다만 사용자의 비평처럼, 여기에도 리스크가 있습니다. RoCoder의 특정 레이어(논문에서는 10, 11)가 “클러스터링이 수렴하지 않아” 결과에서 빠진다고 적혀 있는데, 이것이 정말 “그 레이어 표현이 나쁘다”는 의미인지, 아니면 DirectProbe의 수치적 한계인지 애매함이 남습니다. 이 지점이 왜 중요하냐면, 논문의 서사 중 “Transformer 후반 레이어의 degradation”이 강하게 주장될수록, 측정 도구의 안정성이 결과 해석을 좌우하기 때문입니다. 따라서 독자는 다음을 분리해서 읽는 것이 안전합니다.

CodeSSM이 사전학습에서 강하게 보이는 것은 분명한 관측입니다.

다만 RoCoder의 일부 레이어 결측은 “모델의 결함”과 “프로빙의 결함”을 더 실험으로 구분할 필요가 있습니다.

그럼에도 이 논문이 한 발 더 나아간 지점이 있습니다. 단순히 “SSM이 뭐가 강하다”가 아니라, SSM의 핵심 부품인 convolution kernel을 주파수 영역으로 가져와 “층별 스펙트럼 성질”로 해석하려고 시도합니다. 저자들은 SSM-Interpret를 제안하며, 커널을 Fourier transform으로 변환한 뒤 low-pass(장거리), high-pass(단거리), band-pass(중간거리)로 분류합니다.

특히 ‘dominant frequency(최대 피크)’만으로 분류하면 오판할 수 있다는 문제의식이 현실적입니다. 피크가 한쪽에 뾰족해도 전체 에너지가 다른 대역에 더 넓게 퍼져 있을 수 있기 때문입니다. 그래서 Spectral Centroid와 Low-to-High Frequency Energy Ratio(LHFR)를 함께 써서 안정적으로 분류하겠다고 합니다. Spectral Centroid 임계값을 0.16(저역)과 0.33(고역) 근방으로 두고, LHFR은 저역 에너지를 하위 10%, 고역 에너지를 상위 40% 구간으로 잡아 비율을 계산합니다.

아래 표는 논문이 “분석이 실제 성능 개선으로 이어진다”를 보여주기 위해 제시한 대표 결과를 독자 관점에서 재정리한 것입니다(수치는 논문 Table 1 기반입니다).

모델	NLCodeSearch (MRR)	SQA (MRR)	Type Inference (F1)
CodeSSM	25.39	76.08	59.70
CodeSSM-HF	29.83	78.24	60.04
CodeSSM-1024kernel	28.19	76.01	60.38
CodeSSM-8kernel	30.89	79.57	60.98

표가 말해주는 핵심은 간단합니다. “진단으로 끝나지 않고 설계 변경이 실제 지표를 끌어올린다”는 것입니다. CodeSSM-HF는 고주파(로컬) 경로를 추가해 전체적으로 상승했고, CodeSSM-8kernel은 용량을 ‘무작정 크게’가 아니라 ‘적정 다중 커널’로 조정해 전 과제에서 가장 좋은 수치를 얻습니다.

타입추론 파인튜닝이 부르는 forgetting

사용자 비평의 핵심 논점은 “사전학습에서 잘하던 모델이 왜 타입추론에서 잊어버리나”입니다. 논문은 이 현상을 정성적 느낌이 아니라 거리별 정확도 변화로 붙잡습니다. AST Distance Prediction을 거리 2부터 6까지로 쪼개 보면, 타입추론으로 파인튜닝된 CodeSSM-typeinf가 특히 짧은 거리(로컬) 구문 정보에서 손실이 커진다고 설명합니다. 반대로 RoCoder-typeinf는 같은 파인튜닝 후 짧은 거리 구문 모델링이 개선되는 방향을 보인다고 대비합니다.

이 대목이 흥미로운 이유는 “타입추론이 로컬만 보는 과제”가 아니기 때문입니다. 타입을 맞추려면 인접 토큰의 문법 신호(예: 식별자-연산자 전환, 괄호/구분자 패턴)도 필요하지만, 스코프와 바인딩, 호출 관계처럼 장거리 단서도 동시에 필요합니다. 논문도 타입추론이 short- and long-range dependencies를 함께 요구한다고 명시합니다. 합니다.

여기서 사용자의 비판 포인트(“주파수=거리” 연결이 아직 가설)에 저는 상당 부분 동의합니다. 논문은 고주파=로컬, 저주파=글로벌이라는 직관을 기반으로 해석하는데, 코드의 의존성은 단순 거리만이 아니라 AST/DFG 구조, 스코프, 식별자 역할, 타입 힌트 분포가 섞여 있습니다. 논문도 Appendix의 설명 그림에서 고주파를 punctuation, token type transition 같은 로컬 변화로 연결하고 저주파를 global scope 변화로 연결하는 예시를 듭니다. 다만 이런 예시는 “설명 가능한 비유”로는 좋지만, “인과적 진단”의 수준으로 올라서려면 더 촘촘한 교차검증이 필요합니다.

그래서 이 논문을 실무적으로 읽는 방법은 다음과 같습니다.

이 논문이 확실히 제공한 것:

타입추론 파인튜닝 후 CodeSSM-typeinf에서 특정 구문/의미 관계가 약화되는 forgetting이 관측됩니다.

커널 스펙트럼이 초기 레이어에서 고주파 쪽으로 쏠리는 spectral shift가 함께 관측됩니다.

아직 가설에 가까운 것:

“그 spectral shift가 곧바로 성능 저하의 원인이다”라는 인과 주장입니다.

특히 코드 구조(AST/DFG)의 특정 패턴이 어떤 주파수 지표(Spectral Centroid, LHFR)와 일대일로 맵핑된다는 암묵적 전제가 강합니다.

독자가 당장 적용할 수 있는 안전한 결론:

타입추론 같은 과제에서는 “로컬 신호와 글로벌 신호를 동시에 유지”하는 학습·구조 장치가 필요할 가능성이 높습니다.

SSM을 쓰더라도 로컬 경로(CNN 등)나 다중 커널처럼 “로컬을 위한 별도 용량/유도편향”을 넣는 설계가 실용적으로 유리할 수 있습니다.

또 하나의 중요한 대안 설명은 “훈련 레시피의 영향”입니다. 사용자가 지적했듯, spectral shift가 SSM의 본질적 한계인지, 아니면 학습률/스케줄/정규화/데이터 라벨 특성 같은 세팅으로 유발된 현상인지 분리해야 논문이 더 강해집니다. 논문 자체도 future research로 threshold의 견고성 개선을 언급하며, 현재 기준이 정성 분석에 의해 잡혔음을 밝힙니다.

실험 제안 측면에서, 논문이 한 단계 더 강해지려면 다음 “분리 실험”이 특히 효과적입니다.

layer-wise LR decay, 일부 레이어 freeze로 파인튜닝했을 때도 초기 레이어의 high-pass 쏠림이 재현되는지 확인하는 것입니다.

같은 Type Inference에서 데이터량을 줄이거나 늘리고, 라벨 노이즈를 주입/제거했을 때 spectral shift가 얼마나 민감한지 보는 것입니다.

DirectProbe 외에 linear probe, CKA, AST-probe류 구조 복원 지표로 forgetting이 동일하게 관측되는지 교차검증하는 것입니다.

이런 실험이 추가되면 “주파수 분석이 인과적 진단 도구로도 쓸 수 있다”는 주장에 힘이 실립니다.

커널 설계로 메우는 로컬 의존성

이 논문을 애드센스 승인용 콘텐츠로 풀어낼 때의 포인트는 “읽고 끝나는 해설”이 아니라 “독자가 모델 선택과 실험 설계를 바꿀 수 있는 체크리스트”까지 주는 것입니다. 논문은 실제로 interpretability-driven improvements를 내놓습니다. 대표가 CodeSSM-HF와 CodeSSM-8kernel입니다.

먼저 CodeSSM-HF는 핵심 아이디어가 명확합니다. SSM 경로와 병렬로 high-frequency path를 추가하고, 그 경로는 kernel size 3의 1D CNN으로 로컬 의존성(현재/이전/다음 토큰)을 강하게 보도록 유도합니다. 파라미터 증가를 상쇄하기 위해 grouped convolutions(그룹 크기 8)를 쓰고, depth를 11로 줄여 전체 파라미터가 원본보다 약간 적다고 설명합니다. 여기서 논문이 좋은 이유는 “SSM을 버리고 Transformer를 섞자”가 아니라, SSM의 장점(효율)을 유지하며 로컬 약점을 메우는 설계로 답을 냈다는 점입니다.

다음으로 CodeSSM-1024kernel과 CodeSSM-8kernel은 “용량(capacity) 설계”에 대한 메시지를 줍니다. 단순히 커널 수를 입력 차원(1024)로 늘리면 일부 과제(NLCodeSearch, Type Inference)에서 개선이 있지만 SQA는 정체되고, 오히려 NLCodeSearch에서 CodeSSM-HF보다 낮다고 적습니다. 그래서 저자들은 1,4,8,…,1024 커널을 작은 데이터로 탐색해 8 kernels가 pretraining 성능이 가장 좋았고, 최종적으로 CodeSSM-8kernel이 모든 과제에서 최고 성능을 낸다고 보고합니다. 이 결과는 “무작정 크게”보다 “적정 분할 공유(각 커널이 일부 차원(128) 공유)”가 균형점일 수 있다는 힌트를 제공합니다.

여기서 사용자의 비평(임계값과 일반화 문제)을 모델 개선 해석에 연결하면, 이렇게 정리할 수 있습니다. 즉, SSM-Interpret의 threshold(Spectral Centroid 0.16/0.33, LHFR 10%/40%)가 모델·데이터에 종속적일 수 있어도, “로컬을 위한 별도 경로/별도 용량이 필요하다”는 실용적 결론은 여러 방식으로 재현될 가능성이 높다는 점입니다. 왜냐하면 CodeSSM-HF(구조 변경)와 CodeSSM-8kernel(용량 분해)이라는 서로 다른 처방이 모두 Type Inference를 포함한 전반 성능을 끌어올렸기 때문입니다.

다만 저는 여기에도 보완 과제가 있다고 봅니다. 논문은 CodeSSM-typeinf에서 “초기 레이어가 고주파로 치우친다”를 문제로 묘사하지만, 역설적으로 CodeSSM-HF는 early layers에서 high-pass가 더 많아진다고도 관측합니다(대신 forward/backward가 상보적으로 짝지어져 스펙트럼 이질성이 커진다고 설명합니다). 결국 핵심은 “고주파가 많냐 적냐”가 아니라, 로컬과 글로벌 정보가 한쪽으로 붕괴하지 않게 “상보성(complementary)”과 “이질성(heterogeneity)”을 유지하는 것에 가까워 보입니다. 이 지점은 독자가 오해하기 쉬우니 콘텐츠에서 명확히 풀어주는 것이 좋습니다.

실천 팁으로, 논문을 바탕으로 독자가 바로 적용할 수 있는 실험 체크리스트를 제안합니다.

타입추론(또는 로컬+글로벌이 섞인 과제)을 파인튜닝할 때, 초기 레이어를 과도하게 흔들지 않도록 layer-wise LR decay를 기본 옵션으로 고려하는 것이 안전합니다.

아키텍처 측면에서는 “SSM 단독”과 “SSM+로컬 경로(CNN 등)”를 반드시 같이 비교하는 것이 좋습니다. CodeSSM-HF가 좋은 예시입니다.

용량 확장은 1024kernel처럼 극단으로 가기 전에, 8kernel처럼 적정 분해점을 탐색하는 것이 비용 대비 효과가 클 수 있습니다.

평가도 단일 지표(F1)만 보지 말고, 거리별 정확도나 AST/DFG 기반 프로빙으로 “어떤 정보가 무너졌는지”를 같이 보는 것이 좋습니다.

정리하면, 이 논문이 주는 가장 큰 실무적 가치는 “성능 문제를 해석 가능하게 쪼개고, 그 쪼갠 단위를 설계 변경으로 다시 연결한다”는 방법론입니다. 사용자의 한줄평처럼 아직 인과성 검증과 기준 일반화는 남았지만, 문제를 ‘현상’으로 붙잡아 설계로 되돌리는 루프 자체는 충분히 강력합니다.

타입추론에서 CodeSSM이 잊어버린다는 관측은 흥미롭고, SSM-Interpret로 커널의 spectral shift를 보여준 뒤 CodeSSM-HF와 CodeSSM-8kernel로 성능을 끌어올린 흐름이 깔끔합니다. 다만 주파수 해석의 인과성, 임계값 일반화, 프로빙 안정성, 훈련 레시피 대안 설명은 추가 검증이 필요하다는 점이 핵심 비평입니다.

자주 묻는 질문 (FAQ)

Q. CodeSSM가 사전학습에서는 강한데 타입추론에서 약해지는 이유가 확정된 결론인가요? A. 논문은 타입추론 파인튜닝 후 CodeSSM-typeinf에서 forgetting과 초기 레이어 커널의 spectral shift가 함께 관측된다고 제시합니다. 다만 “그것이 인과적으로 원인이다”까지는 추가 통제 실험이 필요하므로, 현재는 강한 상관 기반 진단으로 이해하는 것이 안전합니다.

Q. SSM-Interpret의 Spectral Centroid, LHFR 임계값은 다른 모델에도 그대로 쓸 수 있나요?
A. 논문은 CodeSSM 커널 분포를 정성 분석하며 Spectral Centroid 0.16/0.33과 LHFR(저역 10%, 고역 40%)을 안정적 기준으로 잡았다고 설명합니다. 하지만 다른 SSM 변형, 다른 시퀀스 길이, 다른 도메인에서는 민감도 분석이 필요하며, 그대로 일반화한다고 단정하기는 어렵습니다.

Q. 실무에서 타입추론 성능을 올리고 싶다면 무엇을 먼저 시도해야 하나요?
A. 논문 결과 기준으로는 (1) 로컬 경로를 추가한 CodeSSM-HF 같은 구조적 보강, (2) CodeSSM-8kernel처럼 적정 다중 커널로 용량을 분해하는 접근이 우선순위가 높습니다. 동시에 layer-wise LR decay, 일부 레이어 freeze 등 파인튜닝 레시피 통제로 forgetting이 줄어드는지 확인하면 “구조 vs 학습” 원인 분리에도 도움이 됩니다.

테크 마스터