LLM 온라인 프루닝 (POP, 추론 효율성, 생성 태스크)

대규모 파운데이션 모델(LFM)은 뛰어난 성능을 보이지만, 그만큼 막대한 연산 비용이 발생합니다. 이를 해결하기 위해 구조적 프루닝(structural pruning) 기법이 주목받고 있지만, 기존 방법들은 추론 초기 단계에서 고정된 프루닝 결정을 내리고 전체 생성 과정에 동일하게 적용합니다. 본 글에서는 자동회귀 토큰 생성 중 나타나는 맥락 의존적 희소성(contextual sparsity)을 활용한 새로운 온라인 구조적 프루닝 프레임워크인 POP(Partition-guided Online Pruning)를 소개합니다. POP는 오프라인 캘리브레이션이나 재학습 없이도 LLM, MoE 모델, 비전-언어 모델(VLM) 등 다양한 대규모 모델에 즉시 적용 가능한 플러그 앤 플레이 방식의 혁신적인 접근법입니다.

온라인 프루닝의 필요성과 POP의 핵심 설계

기존의 구조적 프루닝 방법들은 주로 정적(static) 전략을 사용합니다. SparseGPT, Wanda, FLAP, Týr 같은 방법들은 오프라인 캘리브레이션을 통해 프루닝 마스크를 한 번 결정하고, 이를 추론 전체 과정에 균일하게 적용합니다. 하지만 이러한 접근법은 입력에 무관한(input-agnostic) 특성 때문에 서로 다른 맥락과 태스크에서 나타나는 다양한 희소성 패턴을 포착하지 못합니다. 실제로 Llama-2-7B 모델에서 20% 프루닝을 적용했을 때, Týr 방법은 ARC-C 같은 짧은 형태의 질의응답 태스크에서는 98%의 정확도를 유지하지만, MBPP 같은 긴 형태의 생성 벤치마크에서는 겨우 35%의 성능만 보존합니다. 이는 prefilling 단계에서 결정된 고정 마스크가 자동회귀 생성 과정의 변화하는 맥락을 따라가지 못하기 때문입니다. POP는 이 문제를 해결하기 위해 모델 채널을 retained(유지), candidate(후보), pruned(제거) 세 가지 영역으로 분할합니다. Prefilling 단계에서는 전체 프롬프트 활성화를 바탕으로 coarse pruning partition(거친 프루닝 분할)을 정의합니다. 이후 decoding 단계에서는 candidate 영역 내에서만 fine-grained mask(세밀한 마스크)를 생성하여 전체 채널을 재평가하는 부담을 피합니다. Coarse pruning partition은 일관되게 중요한 가중치를 보존하고, fine-grained masking은 decoding 중 맥락에 따른 변화를 제공합니다. Figure 2의 분석 결과는 POP의 설계 원리를 뒷받침합니다. 채널들을 prefilling 단계의 중요도 순위로 정렬한 후 각 decoding 단계에서의 상대적 순위 변화를 추적했을 때, 전체적인 순서는 prefilling 기준점에 강하게 고정되어 있지만 채널 순위는 시간적으로 눈에 띄는 변동을 보입니다. GSM8K와 MBPP 벤치마크 모두에서 평균 순위 차이는 세밀한 순위 변동을 반영하고, Top-50% 채널 겹침률은 높은 중요도 채널의 안정성을 측정합니다. 국소적 순위 변동이 지속되지만, 상위 순위 채널의 상당 부분은 decoding 전반에 걸쳐 일관되게 유지됩니다. 이러한 관찰은 POP의 삼분할 전략이 구조적 안정성과 국소적 변동의 공존이라는 특성을 정확히 포착했음을 보여줍니다.

프루닝 방법	SFT 불필요	캘리브레이션 불필요	예측기 불필요	맥락 의존적
LLM-Pruner	×	×	×	×
Wanda	✓	×	✓	×
Probe Pruning	✓	×	✓	✓
POP	✓	✓	✓	✓

추론 효율성과 성능의 균형 달성

POP의 가장 큰 기술적 도전은 온라인 프루닝의 계산 오버헤드를 최소화하면서도 정확도를 유지하는 것입니다. 대부분의 기존 맥락 의존적 프루닝 방법들은 다중 토큰 설정을 위해 설계되었습니다. 예를 들어 Probe Pruning은 프로빙 기반 중요도 추정에 의존하고, Instruction-Following Pruning은 입력 조건부 예측기를 사용하는데, 둘 다 여러 토큰에 걸친 집계된 활성화가 필요합니다. 이러한 설계는 각 단계에서 단일 토큰만 사용 가능한 자동회귀 decoding과 근본적으로 호환되지 않습니다. POP는 이 문제를 partition-guided 접근법으로 해결합니다. Candidate 영역의 크기를 제어하는 partition fraction γ를 도입하여, 전체 채널 재평가 없이도 맥락 적응성을 확보합니다. Target pruning ratio를 r, partition width를 δ라 할 때, 중요도 점수의 α-quantile을 q_α로 표기하면 두 개의 임계값 τ_low = q_(r-δ)와 τ_high = q_(r+δ)를 정의합니다. 실험 결과는 POP의 효율성을 명확히 보여줍니다. Llama2-7B에서 20% 프루닝 시, POP는 FFN 계층에서 2.85%의 추가 FLOPs만 발생시키면서 1.29배의 추론 속도 향상을 달성합니다. 40% 프루닝에서는 1.38배의 속도 향상을 보입니다. Ablation study에서 Variant (1)은 prefilling 마스크를 재사용하여 오버헤드가 없지만 정확도가 떨어지고, Variant (2)는 모든 채널을 재평가하여 성능은 좋지만 30% 이상의 FFN FLOPs를 추가로 소모합니다. POP는 γ=0.1로 candidate 영역만 평가하여 4% 미만의 추가 비용으로 Variant (1)보다 일관되게 높은 정확도를 달성합니다. 하지만 리뷰 관점에서 몇 가지 우려가 존재합니다. POP는 attention을 프루닝하지 않기 때문에 attention latency는 변하지 않으며(Table 5에서 42ms 고정), 전체 추론에서 attention 비중이 큰 워크로드에서는 E2E 가속이 제한될 수 있습니다. 또한 측정된 오버헤드가 MLP FLOPs로만 계산되었는지, 실제 커널 실행, 메모리 접근, 인덱싱 비용이 latency에 미치는 영향이 충분히 반영되었는지는 불분명합니다. 긴 컨텍스트, 다양한 batch size, 128 토큰 이외의 sequence length에서의 추가 실험이 필요해 보입니다.

생성 태스크에서의 압도적 성능과 한계

POP의 진정한 강점은 긴 형태의 생성 태스크에서 드러납니다. Table 2의 결과를 보면, Llama2-7B에서 20% 프루닝 시 평균 생성 태스크 정확도가 POP 24.12%, Týr 20.75%, Probe Pruning 19.91%, FLAP 17.23%, Wanda-sp 12.20%로 POP가 명확히 우위를 보입니다. 40% 프루닝에서는 격차가 더욱 벌어져 POP 13.84%, Týr 11.27%, Probe Pruning 8.68%로 나타납니다. Llama3.1-8B에서는 20% 프루닝 시 POP가 37.37%로 Týr의 21.14% 대비 16.23%p 향상을 보이며, 40% 프루닝에서도 23.34% 대 10.31%로 큰 차이를 유지합니다. 특히 기존 오프라인 방법인 Wanda-sp와 FLAP은 생성 태스크에서 거의 붕괴 수준의 성능 저하를 보입니다. 이는 고정된 프루닝 마스크가 자동회귀 생성의 진화하는 맥락을 따라가지 못한다는 POP 논문의 핵심 주장을 강력히 뒷받침합니다. MoE 모델에서도 유사한 패턴이 나타납니다. Qwen1.5-MoE-A2.7B에서 20% 프루닝 시 POP는 생성 정확도 42.10%로 Týr의 27.66% 대비 14.44%p 향상을 보입니다. 40% 프루닝에서는 POP 31.11%, Týr 7.81%로 격차가 더욱 커집니다. VLM 평가에서도 Qwen2-VL에서 20% 프루닝 시 POP가 59.94%로 FLAP의 46.74% 대비 13.20%p, Wanda-sp의 7.86% 대비 52.08%p 향상을 달성합니다. 그러나 QA 태스크에서는 다른 양상이 나타납니다. Table 2에서 20% 프루닝의 평균 QA 정확도를 보면 Týr가 63.72%, POP가 62.34%로 Týr가 1.38%p 앞섭니다. 40% 프루닝에서는 격차가 더 벌어져 Týr 58.92%, POP 53.35%로 5.57%p 차이가 납니다. 특히 Llama3.1-70B에서 40% 프루닝 시 Týr가 65.90%인 반면 POP는 62.53%에 그칩니다. 이는 "온라인 마스킹이 짧은 출력의 QA에서는 오히려 불필요한 변동을 유발하는가?"라는 질문을 제기합니다.

모델	방법	평균 정확도	FLOPs	오버헤드(%)
Llama2-7B	Variant (1)	23.40	0.00	0.0
Llama2-7B	Variant (2)	26.56	7.32	33.1
Llama2-7B	POP	24.12	0.63	2.85
Llama3.1-8B	POP	37.37	1.00	3.48

또한 공정성 측면에서 POP는 FFN만 프루닝하고 Probe Pruning은 attention도 프루닝한다는 점이 비교 조건의 논란 여지를 만듭니다. 논문은 "동일 파라미터 감소를 위해 FFN pruning ratio를 높였다"고 명시하지만, 워크로드에 따라 attention이나 MLP가 병목이 되는 상황이 다르기 때문에 같은 E2E latency 목표나 FLOPs 목표로도 비교가 필요해 보입니다. Partition fraction γ의 자동 선택 메커니즘 부재, 짧은 프롬프트에서 partition 불안정성 가능성, 긴 생성 중 retained region의 재조정 필요성 등도 실무 적용을 위해 해결해야 할 과제입니다. POP는 자동회귀 생성의 맥락 의존적 희소성을 포착하는 우아한 솔루션이며, 특히 긴 형태의 생성 태스크에서 기존 방법들을 크게 앞서는 성능을 보입니다. 오프라인 준비 비용이 전혀 없다는 점도 배포 관점에서 큰 장점입니다. 다만 QA 태스크에서의 성능 손실, 제한적인 E2E 속도 향상, 공정 비교 이슈 등은 추가 연구가 필요한 부분입니다. γ/δ의 자동 조정, 다양한 시퀀스 길이와 배치 크기에서의 latency breakdown, repartition 옵션 등이 보완된다면 ICML급 실용 가속 논문으로서 설득력이 한층 강화될 것입니다.

자주 묻는 질문 (FAQ)

Q. POP는 어떤 모델에 적용할 수 있나요? A. POP는 Llama, Qwen 같은 대규모 언어 모델(LLM), Qwen-MoE 같은 Mixture-of-Experts(MoE) 모델, Qwen2-VL 같은 비전-언어 모델(VLM)에 모두 적용 가능합니다. 오프라인 캘리브레이션이나 재학습 없이 플러그 앤 플레이 방식으로 즉시 사용할 수 있습니다. Q. POP의 온라인 프루닝이 추론 속도에 얼마나 영향을 주나요? A. Llama2-7B 기준으로 20% 프루닝 시 FFN 계층에서 2.85%의 추가 FLOPs만 발생하며, E2E 추론 속도는 1.14배 향상됩니다. 40% 프루닝에서는 1.38배의 속도 향상을 보입니다. Candidate 영역만 재평가하여 전체 채널을 다시 계산하는 방식(33% 오버헤드)보다 훨씬 효율적입니다. Q. 왜 짧은 QA 태스크에서는 기존 방법보다 성능이 낮나요? A. QA 태스크는 출력 길이가 짧아 decoding 단계의 맥락 변화가 적습니다. 따라서 prefilling 단계의 고정 마스크만으로도 충분한 성능을 낼 수 있으며, 온라인 마스크 조정이 오히려 불필요한 변동을 유발할 수 있습니다. 반면 긴 생성 태스크에서는 POP의 맥락 적응적 프루닝이 압도적인 우위를 보입니다. Q. Partition fraction γ 값은 어떻게 설정해야 하나요? A. 논문에서는 γ=0.1을 기본값으로 권장합니다. γ가 클수록 candidate 영역이 넓어져 정확도는 향상되지만 계산 오버헤드도 증가합니다. 모델과 태스크 특성에 따라 γ를 조정할 수 있으며, 향후 자동 선택 메커니즘 개발이 필요한 부분입니다. Q. POP를 실제 서비스에 적용하려면 무엇을 고려해야 하나요? A. 워크로드 특성을 먼저 파악해야 합니다. 긴 형태의 생성이 많다면 POP의 이점이 크지만, 짧은 QA 위주라면 오프라인 최적화 기법도 고려할 만합니다. 또한 attention이 병목인지 MLP가 병목인지에 따라 FFN 전용 프루닝의 효과가 달라질 수 있으므로, 실제 배포 환경에서 latency profiling을 수행하는 것이 좋습니다. --- [출처] POP: Online Structural Pruning Enables Efficient Inference of Large Foundation Models: https://arxiv.org/html/2602.06822v1

테크 마스터