개념 학습 AI의 확증편향 (정보이득, 긍정검증전략, 제안분포)

인간이 새로운 개념을 학습할 때, 무작위로 정보를 수집하기보다는 전략적으로 질문을 선택합니다. 이러한 능동적 개념 학습(active concept learning)은 불확실성을 줄이기 위한 효율적인 방법이지만, 흥미롭게도 인간은 종종 자신의 가설을 반박하는 증거보다 확인하는 증거를 선호하는 경향을 보입니다. 이를 확증편향(confirmation bias)이라 부르며 오랫동안 인지적 오류로 간주되어 왔습니다. 그러나 최근 대규모 언어모델(LLM)을 활용한 신경기호적 베이지안 학습 시스템 연구는 이러한 확증편향이 오히려 계산적으로 합리적인 전략일 수 있음을 시사합니다. 본 글에서는 기대 정보이득(Expected Information Gain, EIG) 정책과 긍정검증전략(Positive Test Strategy, PTS)을 비교하며, 제안분포(proposal distribution)의 한계가 능동 학습 성능에 미치는 영향을 분석합니다.

정보이득 최적화의 역설: 경계 질의와 입자 붕괴

베이지안 개념 학습에서 가장 합리적으로 보이는 전략은 기대 정보이득(EIG)을 최대화하는 것입니다. EIG 정책은 현재 사후분포(posterior distribution)의 엔트로피를 가장 크게 감소시킬 질의를 선택합니다. 이론적으로는 각 질문이 최대한의 정보를 제공하도록 설계되어, 가설 공간을 빠르게 축소할 수 있습니다. 그러나 LLM 기반 프로그램 제안 시스템에서 EIG는 예상과 다른 결과를 보입니다. Number Game 실험에서 EIG 정책은 단순한 규칙(예: 4의 배수, 제곱수)에서 오히려 수동적 무작위 샘플링보다 느린 수렴 속도를 보였습니다. 구체적으로 "4의 배수" 규칙에서 EIG는 7회의 질의가 필요했지만, 수동 정책은 2회, PTS는 4회만에 수렴했습니다. 이러한 역설적 결과의 원인은 EIG가 선택하는 경계 질의(boundary query)의 특성에 있습니다. EIG는 현재 입자 집합(particle set) 하에서 예측 엔트로피가 최대인 지점, 즉 가설들의 의견이 가장 엇갈리는 경계 사례를 선호합니다. 문제는 이러한 경계 질의가 레이블을 관찰한 후 사후분포를 급격히 축소시킨다는 점입니다. 많은 입자가 새로운 관찰과 불일치하여 제거되고, 시스템은 LLM으로부터 새로운 가설을 재생성(rejuvenation)해야 합니다. 바로 이 시점에서 지원 불일치 함정(support-mismatch trap)이 발생합니다. 경계 질의 이후의 데이터셋은 LLM의 제안분포가 안정적으로 지원하는 영역 밖에 위치하게 되어, LLM은 유효하지 않거나 지나치게 구체적인 프로그램을 생성하게 됩니다. 예를 들어, 입자 필터링 후 생성된 프로그램 중 상당수가 구문적으로 유효하지 않거나, 기존 관찰과 일관성이 없거나, 불필요하게 복잡한 조건을 포함하여 결국 버려집니다. 이러한 입자 퇴화(particle degeneracy)는 복구가 느리고, 시스템은 여러 번의 재생성 시도를 거쳐야 적절한 가설 집합을 다시 구성할 수 있습니다. 결과적으로 EIG의 "정보 최적성"은 계산 시스템 전체의 안정성을 고려하지 못해, 단순한 개념에서는 오히려 비효율로 이어집니다. 이는 규범적(normative) 정책이 자원 제약이 있는 실제 추론 시스템에서 항상 최적은 아니라는 중요한 교훈을 제공합니다.

규칙 유형	규칙 예시	EIG 질의수	PTS 질의수	수동 질의수
단순 규칙	4의 배수	7	4	2
단순 규칙	홀수	8	6	5
중간 규칙	3 또는 7의 배수	8	미완료	13
복잡 규칙	9로 나눈 나머지=5	31	미완료	41

긍정검증전략의 계산적 합리성과 안정성 유지

긍정검증전략(Positive Test Strategy, PTS)은 현재 최대 사후확률(MAP) 가설 하에서 긍정으로 예측되는 사례를 우선적으로 질의하는 방식입니다. 전통적으로 PTS는 Wason의 선택 과제 연구 이후 확증편향의 전형적 사례로 비판받았습니다. 반증주의 관점에서 보면, 효과적인 학습을 위해서는 가설을 반박할 수 있는 부정 사례를 적극 탐색해야 하기 때문입니다. 그러나 본 연구의 결과는 PTS가 특정 계산 환경에서 오히려 합리적 전략일 수 있음을 보여줍니다. 단순 규칙에서 PTS는 EIG보다 빠른 수렴을 보였습니다. "제곱수" 규칙에서 PTS는 2회, "2의 거듭제곱"에서도 2회 만에 수렴했습니다. 이러한 성능의 핵심은 PTS가 LLM 제안분포의 안정적 지원 영역 내에 머무른다는 점입니다. PTS는 현재 가설이 긍정으로 예측하는 "안전한" 질의를 선택하므로, 관찰 후 데이터셋이 여전히 LLM이 일관된 프로그램을 생성할 수 있는 범위 내에 위치합니다. 이는 재생성 시 유효한 가설의 비율을 높게 유지하고, 입자 퇴화를 방지하여 안정적인 추론 진행을 가능하게 합니다. 물론 PTS의 한계도 명확합니다. 중간 복잡도의 규칙에서 PTS는 종종 수렴에 실패했습니다. "3 또는 7의 배수" 규칙에서 PTS는 50회 질의 내에 수렴하지 못했고(DNF), EIG는 8회 만에 성공했습니다. 이는 PTS가 반증 증거를 적극 탐색하지 않아, 복합 규칙이나 예외가 있는 개념에서 잘못된 가설에 고착될 수 있음을 보여줍니다. 실험에서 PTS 구현은 MAP 가설의 긍정 사례만을 균등하게 샘플링하도록 설계되어, 부정 검증을 거의 수행하지 않는 극단적 형태였습니다. 이는 실제 인간의 PTS보다 과장된 형태로, 인간은 보통 긍정 사례를 선호하되 가끔 부정 검증도 수행합니다. 그럼에도 PTS의 성능은 중요한 통찰을 제공합니다. 가설 생성이 희소하고 지원이 제한된 환경에서, 확증 스타일의 샘플링은 추론을 실행 가능한(tractable) 영역에 유지하는 휴리스틱으로 기능할 수 있습니다. 인간의 인지적 제약 하에서도 유사한 메커니즘이 작동할 수 있으며, 이 관점에서 PTS는 단순히 "편향"이 아니라 제한된 계산 자원 하에서의 합리적 적응으로 재해석될 수 있습니다. 다만 이러한 해석은 LLM 기반 프로그램 공간이라는 특정 맥락에 한정되며, 인간의 확증편향 전반으로 일반화하기에는 추가 증거가 필요합니다.

제안분포 병목과 생성기 인식 능동 학습

본 연구의 핵심 기여는 제안분포(proposal distribution) 병목을 명시적으로 드러낸 것입니다. 신경기호적 베이지안 학습에서 LLM은 단순히 실행 가능한 코드를 생성하는 도구가 아니라, 가설 공간의 지원(support)을 결정하는 확률적 생성기입니다. 입자 근사 추론은 이 생성기가 안정적으로 지원하는 영역에서만 효과적으로 작동합니다. EIG 같은 정보 최적 정책이 실패하는 이유는, 정보이론적으로는 최선이지만 생성기의 능력을 초과하는 데이터셋으로 시스템을 유도하기 때문입니다. 실험에서 사용된 Gemini 2.5 Flash는 초기 조건이나 단순한 제약 하에서는 유효한 프로그램을 높은 비율로 생성했지만, 경계 질의 이후 급격히 축소된 가설 공간에서는 제안 성공률이 급락했습니다. 재생성 단계에서 생성된 프로그램 중 상당수가 구문 오류, 기존 데이터와의 불일치, 또는 지나치게 구체적인 조건 때문에 폐기되었습니다. 이는 단일 LLM에만 국한된 현상일 수 있으므로, 다른 모델(예: 코드 특화 모델, 더 큰 규모 모델)에서의 재현성 검증이 필요합니다. 또한 constrained decoding이나 DSL(Domain-Specific Language) 제약을 통해 제안 지원을 확장하면 EIG의 성능이 회복될 가능성도 있습니다. 복잡한 규칙(Hard rules)에서는 모든 정책이 실패하는 경우가 많았습니다. "소수보다 하나 작은 수", "제곱의 두 배에서 2를 뺀 수" 같은 규칙에서는 EIG, PTS, 수동 정책 모두 50회 내에 수렴하지 못했습니다. 이는 질의 선택만으로는 생성기가 거의 제안하지 않는 가설을 복구할 수 없음을 보여줍니다. 능동 학습은 기존 모델링 용량을 증폭할 수 있지만, 근본적으로 새로운 가설 클래스를 창출하지는 못합니다. 이러한 결과는 생성기 인식(generator-aware) 능동 학습 목표의 필요성을 제기합니다. 예를 들어, EIG(x) − λ × "예상 제안 실패율"과 같이 질의가 유발할 제안 품질 저하를 페널티로 포함하는 획득 함수(acquisition function)를 고려할 수 있습니다. 또는 재생성 메커니즘 자체를 강건하게 만들어, 급격한 제약 하에서도 최소한의 커버리지를 유지하는 백스톱(backstop) 전략이 필요합니다. 본 연구는 이러한 해결책을 실험하지는 않았지만, 실패 모드를 분리하고 문서화함으로써 향후 연구 방향을 명확히 제시했습니다. 인지과학 관점에서도, 인간의 가설 생성이 유사하게 희소하고 지원이 제한적이라면, PTS는 "고커버리지" 가설 공간 영역을 유지하려는 기능적 전략으로 이해될 수 있습니다. 본 연구는 능동 개념 학습에서 정보 최적성과 계산 안정성 사이의 근본적 긴장을 드러냈습니다. EIG는 이론적으로 최선이지만 제안분포 한계로 인해 단순 개념에서 실패할 수 있고, PTS는 정보적으로 차선이지만 안정성을 유지하여 빠른 수렴을 가능하게 합니다. 이는 "확증편향이 오류가 아닐 수 있다"는 도발적 주장을 제한된 맥락에서 지지하지만, 인간 인지 전반으로 확장하기에는 신중해야 합니다. 표본 크기, LLM 다양성, 정량적 복잡도 지표, 생성기 인식 획득 함수 등 추가 실험이 필요하며, 특히 ESS 추이, 재생성 성공률, 유효하지 않은 프로그램 비율 같은 진단 지표가 보완되어야 지원 불일치 함정의 인과관계가 명확해질 것입니다.

자주 묻는 질문 (FAQ)

Q. EIG 정책이 단순한 개념에서 오히려 느린 이유는 무엇인가요? A. EIG는 현재 가설들의 의견이 엇갈리는 경계 사례를 질의하여 정보를 최대화합니다. 그러나 이러한 경계 질의는 사후분포를 급격히 축소시켜, LLM이 새로운 가설을 재생성할 때 유효하지 않거나 지나치게 구체적인 프로그램을 생성하게 만듭니다. 이를 지원 불일치 함정이라 하며, 입자 퇴화로 인해 복구가 느려집니다. 단순한 개념일수록 안정적인 제안 영역을 벗어나는 경계 질의의 부작용이 크게 나타납니다. Q. 긍정검증전략(PTS)이 모든 경우에 유리한가요? A. 아닙니다. PTS는 단순한 규칙에서는 안정성 덕분에 빠른 수렴을 보이지만, 복합 규칙이나 예외가 있는 개념에서는 반증 증거를 충분히 탐색하지 못해 수렴에 실패하거나 잘못된 가설에 고착될 수 있습니다. 실험에서 "3 또는 7의 배수" 같은 중간 복잡도 규칙에서 PTS는 50회 내에 수렴하지 못했지만, EIG는 8회 만에 성공했습니다. 따라서 개념의 복잡도에 따라 전략을 적응적으로 전환하는 메타 정책이 필요합니다. Q. 이 연구 결과를 실제 AI 시스템 설계에 어떻게 활용할 수 있나요? A. 생성기 인식 능동 학습 목표를 설계할 수 있습니다. 예를 들어 EIG에 "예상 제안 실패율" 페널티를 추가하여, 질의가 LLM의 안정적 지원 영역을 벗어나지 않도록 조정할 수 있습니다. 또한 재생성 메커니즘에 DSL 제약이나 템플릿 강제를 도입하여 극단적 조건에서도 최소 커버리지를 보장하는 방법도 고려할 수 있습니다. 인간-AI 협업 시스템에서는 초기에는 PTS 같은 안정적 전략을 사용하다가, 진행이 정체되거나 모순이 발견되면 EIG로 전환하는 적응적 정책도 유망합니다.

[출처] Wild Guesses and Mild Guesses in Active Concept Learning: https://arxiv.org/html/2602.06818v1

테크 마스터