
AI 에이전트가 복잡한 작업을 수행하는 시대가 도래하면서, 에이전트 스스로 자신의 성공 가능성을 얼마나 정확하게 예측할 수 있는지가 중요한 과제로 떠오르고 있습니다. 최근 연구에 따르면 AI 에이전트들은 자신의 성공 확률을 심각하게 과대평가하는 경향을 보입니다. 실제로 22%의 성공률을 기록한 에이전트가 77%의 성공 가능성을 예측하는 등, 체계적인 과신 현상이 관찰되었습니다. 이러한 문제는 에이전트를 실무에 배치할 때 신뢰성과 안전성에 직접적인 영향을 미치므로, 자기평가 능력의 한계와 개선 방안에 대한 깊이 있는 이해가 필요합니다.
AI 에이전트의 자기평가 능력과 한계
AI 에이전트의 자기평가 능력은 P(IS), 즉 'Probability that I Succeed'라는 개념으로 측정됩니다. 이는 기존의 P(IK, Probability that I Know) 개념을 확장한 것으로, 단순히 사실을 아는지 여부를 넘어 복잡한 다단계 작업을 성공적으로 완수할 수 있는지를 예측하는 능력을 의미합니다. 연구진은 GPT-5.2-Codex, Gemini-3-Pro, Claude Opus 4.5라는 세 가지 최신 모델을 대상으로 SWE-bench Pro의 100개 작업을 수행하며 이를 측정했습니다.
실험 결과는 충격적입니다. GPT-5.2-Codex 기반의 사후 실행 에이전트는 실제 성공률이 35%임에도 불구하고 73%의 성공 가능성을 예측했습니다. Gemini-3-Pro는 더욱 극단적인 과신을 보였는데, 22%의 실제 성공률에 대해 77%를 예측했습니다. Claude Opus 4.5 역시 27%의 실제 성공률에 비해 61%의 예측치를 제시했습니다. 이러한 과신은 모든 모델과 측정 시점에서 일관되게 나타났습니다.
특히 주목할 만한 점은 과신의 비대칭성입니다. 실패하는 작업에 대해 70% 이상의 높은 확신을 보이는 경우가 62%에 달했지만, 성공하는 작업에 대해 30% 미만의 낮은 확신을 보이는 경우는 단 11%에 불과했습니다. 다시 말해, 에이전트들은 실패할 작업에 대해 자신감을 가질 확률이 성공할 작업을 의심할 확률보다 5.5배나 높았습니다. 이는 단순한 캘리브레이션 문제를 넘어, 에이전트가 자신의 한계를 인식하지 못하는 근본적인 문제를 시사합니다.
이러한 과신 현상은 실무 배치에서 심각한 위험을 초래할 수 있습니다. 자동화된 의사결정 시스템에서 에이전트가 잘못된 해결책에 대해 높은 확신을 보인다면, 인간 검토자는 이를 신뢰하여 승인할 가능성이 높아지기 때문입니다. 따라서 에이전트의 자기평가를 맹목적으로 신뢰하는 것은 위험하며, 추가적인 검증 메커니즘이 반드시 필요합니다.
정보 접근 시점별 캘리브레이션 차이
연구진은 에이전트의 불확실성 추정을 세 가지 시점에서 측정했습니다. 사전 실행(pre-execution)은 작업 설명과 코드 저장소만 접근 가능한 상태에서, 중간 실행(mid-execution)은 작업 진행 중 25%, 50%, 75% 지점에서, 사후 실행(post-execution)은 완성된 패치를 검토한 후 성공 가능성을 추정하는 방식입니다. 직관적으로는 더 많은 정보를 가진 사후 실행 단계에서 더 정확한 예측이 나와야 할 것 같지만, 실제 결과는 그렇지 않았습니다.
놀랍게도 사전 실행 평가가 사후 실행보다 더 나은 구분력을 보였습니다. GPT의 경우 사전 실행 AUROC가 0.62인 반면 사후 실행은 0.58이었고, Claude는 0.64 대 0.55, Gemini는 0.53 대 0.51을 기록했습니다. 비록 통계적 유의성은 제한적이었으나(95% 신뢰구간이 겹침), 세 모델 모두에서 일관된 패턴이 나타난 점은 주목할 만합니다. 이는 완성된 패치를 보는 것이 오히려 판단을 왜곡시킬 수 있음을 시사합니다.
이러한 역설적 결과의 원인은 '앵커링 효과'로 설명됩니다. 에이전트가 완성된 코드를 보면 표면적 그럴듯함(surface plausibility)에 이끌려 실제 작동 여부와 무관하게 긍정적으로 평가하는 경향이 있습니다. 예를 들어, qutebrowser의 dark-mode 정책 노출 작업에서 사전 실행 에이전트는 "외부 참조 없이 정확한 Chromium 키를 아는 것이 가장 큰 위험"이라며 45%의 성공 가능성을 제시했습니다. 그러나 패치를 본 사후 실행 에이전트는 "논리가 건전해 보인다"며 82%로 상향 조정했고, 결과적으로 패치는 실패했습니다.
중간 실행 평가는 또 다른 흥미로운 패턴을 보였습니다. 작업이 진행될수록 에이전트들의 확신이 감소하는 '주저 현상(cold feet)'이 관찰되었습니다. GPT와 Claude의 경우 각각 71%와 97%의 인스턴스에서 시간이 지남에 따라 확신도가 낮아졌습니다. 그러나 이러한 의심은 정보가 없었습니다. 성공 사례와 실패 사례의 확신도 변화가 거의 동일했기 때문입니다. 즉, 에이전트들은 작업을 진행하면서 불안해지지만, 그 불안이 실제 실패 가능성과는 무관했습니다.
| 측정 시점 | 정보 접근 범위 | GPT AUROC | 주요 특징 |
|---|---|---|---|
| 사전 실행 | 작업 설명 + 저장소 | 0.62 | 추상적 난이도 추론 |
| 중간 실행 | 부분 궤적 포함 | 0.51~0.53 | 주저 현상, 정보 없는 의심 |
| 사후 실행 | 완성된 패치 | 0.58 | 앵커링 효과, 과신 |
| 적대적 사후 | 패치 + 버그 찾기 | 0.55 | 최상의 캘리브레이션 |
적대적 프롬프팅을 통한 개선 방안
연구진은 과신 문제를 완화하기 위한 방법으로 '적대적 사후 실행(adversarial post-execution)' 접근법을 제안했습니다. 이는 에이전트에게 "이 패치가 올바른가?"라고 묻는 대신 "어떤 버그를 찾을 수 있는가?"라고 질문하여 검증을 버그 찾기로 재구성하는 방식입니다. 이러한 프롬프팅 변화는 확증 편향(confirmation bias)을 약화시키고 비판적 검토를 유도합니다.
적대적 프롬프팅은 모든 모델에서 가장 우수한 캘리브레이션을 달성했습니다. ECE(Expected Calibration Error) 지표에서 GPT는 0.42에서 0.30으로 28% 개선되었고, Claude는 0.37에서 0.24로 35% 개선되었습니다. 과신도 역시 유의미하게 감소했습니다. 실패 사례에 대해 70% 이상의 확신을 보이는 비율이 표준 검토에서는 72%였으나 적대적 검토에서는 45%로 낮아졌습니다.
그러나 적대적 프롬프팅의 효과는 모델에 따라 다르게 나타났습니다. 연구진은 개선 효과를 '균일 이동(uniform shift)'과 '신호 개선(signal improvement)'으로 분해 분석했습니다. GPT의 경우 성공 사례와 실패 사례에서 확신도 감소폭이 거의 동일했습니다(각각 0.11과 0.12, p=0.70). 이는 적대적 프롬프팅이 모든 예측값을 단순히 아래로 이동시켰을 뿐 실제 구분력은 개선하지 못했음을 의미합니다. 실제로 GPT의 AUROC는 0.58에서 0.55로 거의 변화가 없었으며, Platt scaling과 같은 사후 통계적 보정 방법이 적대적 프롬프팅보다 더 나은 캘리브레이션을 제공했습니다(ECE 0.01 vs 0.30).
반면 Gemini와 Claude는 다른 패턴을 보였습니다. Gemini는 실패 사례에서 0.18, 성공 사례에서 0.05의 확신도 감소를 보였고, Claude는 각각 0.16과 0.08의 감소를 보였습니다. 이는 적대적 프롬프팅이 실패 사례를 더 정확하게 식별하는 진짜 신호를 제공했음을 의미하며, 실제로 AUROC도 개선되었습니다(Gemini 0.51→0.57, Claude 0.55→0.64). 비록 개별 차이의 통계적 유의성은 제한적이었으나(p=0.18, p=0.09), 일관된 방향성은 주목할 만합니다.
구체적인 사례를 보면 적대적 프롬프팅의 효과가 명확합니다. OpenLibrary의 검색 식별자 수정 작업에서 표준 검토 에이전트는 "작은 한 줄 추가가 다른 id_* 제공자와 일치하므로 식별자를 노출해야 한다"며 85%의 확신을 보였습니다. 하지만 적대적 검토 에이전트는 더 깊이 파고들어 "패치가 default_fetched_fields에만 필드를 추가했지만, get_doc의 출력 형성 로직에는 이 필드가 포함되지 않아 Solr이 반환해도 응답에서 생략된다. 패치가 불완전해 보인다"며 25%로 평가했습니다. 실제로 패치는 실패했고, 60포인트의 차이는 적대적 프레이밍이 "그럴듯해 보임" 휴리스틱을 극복하는 방법을 보여줍니다.
적대적 프롬프팅은 또한 모델 간 잘못된 합의를 깨는 효과도 있었습니다. 표준 사전 실행에서는 세 모델이 87%의 사례에서 동일한 예측(50% 임계값 기준)을 내놓았지만, 이 중 정확한 합의는 13%에 불과했습니다. 적대적 프레이밍에서는 세 모델의 합의율이 44%로 낮아졌지만, 합의의 정확도는 38%로 높아졌습니다. 이는 적대적 프롬프팅이 생산적인 불일치를 유도하여 진정한 불확실성을 드러낸다는 것을 보여줍니다.
다만 적대적 프롬프팅에는 비용이 따릅니다. 평균적으로 23.4단계의 도구 호출과 인스턴스당 $0.52의 비용이 발생하는데, 이는 표준 검토의 12.7단계와 $0.23에 비해 2배 이상입니다. 그러나 추가적인 정밀 검토가 실질적으로 더 나은 예측을 제공한다는 점에서, 고위험 작업에서는 충분히 정당화될 수 있는 투자입니다.
AI 에이전트의 과신 문제는 단순한 캘리브레이션 오류를 넘어 안전한 자동화 시스템 구축의 핵심 과제입니다. 본 연구는 에이전트가 자신의 성공 가능성을 체계적으로 과대평가하며, 더 많은 정보가 반드시 더 나은 판단으로 이어지지 않음을 보여주었습니다. 특히 사전 실행 평가가 사후 실행보다 더 나은 구분력을 보인 점은 앵커링 효과의 위험성을 경고합니다. 적대적 프롬프팅은 유망한 개선 방안이지만 모델에 따라 효과가 다르며, GPT처럼 단순 이동만 발생하는 경우 통계적 보정이 더 효율적일 수 있습니다. 궁극적으로 현재 AI 에이전트의 자기평가를 맹신하는 것은 위험하며, 인간 감독과 독립적 검증 메커니즘이 필수적입니다. 향후 연구는 코딩 외 다양한 도메인으로 확장하고, 훈련된 검증자와의 비교, 다중 에이전트 환경에서의 불확실성 전파 등을 탐구해야 할 것입니다.
자주 묻는 질문 (FAQ)
Q. AI 에이전트의 자기평가 능력이 중요한 이유는 무엇인가요?
A. AI 에이전트가 복잡한 작업을 자율적으로 수행하는 범위가 빠르게 확대되고 있습니다. METR의 2025년 보고서에 따르면 AI 에이전트가 완료하는 작업의 효과적인 길이가 6년간 7개월마다 2배씩 증가했습니다. 에이전트가 자신의 성공 가능성을 정확히 예측할 수 있다면, 작업을 자동 승인할지 인간 검토자에게 전달할지를 합리적으로 결정할 수 있습니다. 그러나 현재 에이전트들이 보이는 체계적 과신은 잘못된 자동화 결정으로 이어져 높은 비용과 위험을 초래할 수 있습니다.
Q. 사전 실행 평가가 사후 실행보다 나은 이유는 무엇인가요?
A. 직관과 달리 더 많은 정보가 항상 더 나은 판단을 만들지는 않습니다. 완성된 패치를 보면 에이전트는 표면적 그럴듯함에 앵커링되어 실제 작동 여부를 제대로 검증하지 못합니다. 반면 사전 실행 단계에서는 코드베이스 구조, 작업 복잡도, 외부 지식 필요성 등 추상적 난이도 특성에 기반해 판단하므로, 특정 구현에 편향되지 않은 평가가 가능합니다. 다만 이 차이는 통계적으로 항상 유의하지는 않으므로, 추가 연구가 필요합니다.
Q. 실무에서 적대적 프롬프팅을 어떻게 활용할 수 있나요?
A. 적대적 프롬프팅은 표준 검토보다 2배 정도의 비용이 들지만, 캘리브레이션을 크게 개선합니다. 고위험 작업(보안 패치, 프로덕션 배포, 금융 거래 등)에서는 적대적 검토를 기본으로 설정하고, 저위험 작업에는 표준 검토를 사용하는 계층화된 전략이 효과적입니다. 또한 모델에 따라 효과가 다르므로, GPT처럼 균일 이동만 발생하는 경우 Platt scaling 같은 사후 통계적 보정을 병행하는 것이 더 효율적일 수 있습니다. 여러 에이전트의 평가가 크게 불일치할 때는 자동으로 인간 검토자에게 에스컬레이션하는 정책도 고려할 만합니다.
[출처]
Agentic Uncertainty: Can AI Agents Predict Whether They Will Succeed?: https://arxiv.org/html/2602.06948v1