에이전트 AI 설명성 (궤적 분석, 루브릭 평가, 인과성 검증)

인공지능이 단순히 예측을 내놓는 시대를 넘어, 이제는 다단계 작업을 수행하는 에이전트 시스템으로 진화하고 있습니다. 기존의 설명 가능한 AI(XAI) 방법론은 주로 정적인 입력-출력 관계를 설명하는 데 초점을 맞췄지만, 도구를 사용하고 상태를 업데이트하며 환경과 상호작용하는 에이전트의 행동을 설명하기에는 한계가 명확합니다. 이 연구는 전통적인 특징 귀속(attribution) 방법과 궤적 기반 진단을 비교하며, 에이전트 AI 시대에 필요한 새로운 설명성 프레임워크를 제시합니다.

정적 예측과 에이전트 시스템의 설명성 차이

전통적인 XAI 방법론은 고정된 매핑 함수 y=f(x)를 가정하고, SHAP(SHapley Additive exPlanations)이나 LIME(Local Interpretable Model-agnostic Explanations) 같은 특징 귀속 기법을 통해 어떤 입력 요소가 예측에 영향을 미쳤는지 설명합니다. 이러한 접근은 단일 시점의 의사결정을 다룰 때는 효과적이지만, 에이전트 시스템에서는 근본적인 한계에 직면합니다. 에이전트 시스템은 궤적(trajectory) τ=(s₀, a₀, o₀, s₁, a₁, o₁, ..., sₜ)으로 표현되는 연속적인 상태-행동-관찰 시퀀스를 통해 작동합니다. 여기서 sₜ는 t 시점의 내부 상태, aₜ는 취한 행동(도구 호출 포함), oₜ는 받은 관찰을 의미합니다. 성공과 실패는 단일 예측이 아닌 전체 궤적 수준에서 결정되므로, 설명의 범위(scope)가 근본적으로 달라집니다. 실험 결과에 따르면, 정적 분류 작업에서 TF-IDF와 로지스틱 회귀 모델은 안정적인 특징 순위(Spearman ρ=0.86)를 보였습니다. SHAP와 LIME은 "software", "development" 같은 어휘 특징이 IT 직무 분류에 미치는 영향을 일관되게 포착했습니다. 그러나 이러한 방법을 TAU-bench Airline이나 AssistantBench 같은 에이전트 벤치마크에 적용했을 때는, 실행 수준의 실패를 진단하는 데 신뢰성이 크게 떨어졌습니다. 특징 귀속은 전역적 상관관계를 요약할 수는 있지만, 특정 실행에서 어떤 제약이 어디서 위반되었는지를 국소화하지 못했습니다.

설명성 접근법	정적 예측 설정	에이전트 설정
설명 단위	단일 입출력	다단계 궤적
근거 자료	입력 특징, 가중치	도구 호출, 상태 로그
검증 신호	섭동 안정성	재실행 일관성, 루브릭
감사 가능성	사후 특징 검사	단계별 재실행, 실패 국소화

이러한 패러다임 차이는 Minimal Explanation Packet(MEP) 개념으로 공식화됩니다. MEP는 설명 아티팩트, 실행 컨텍스트, 검증 신호를 하나의 패키지로 묶습니다. 정적 MEP가 입력 텍스트와 예측 레이블, 섭동 안정성 점수로 구성된다면, 에이전트 MEP는 전체 실행 추적, 도구 로그, 검색된 문서, 상태 스냅샷, 그리고 루브릭 기반 행동 플래그를 포함합니다. 이는 설명이 더 이상 독립적인 서술이 아니라, 증거와 검증을 동반한 구조화된 행동 계정이어야 함을 의미합니다.

궤적 기반 루브릭 평가의 진단 능력

에이전트 시스템의 실패는 단일 "잘못된 출력"으로 환원되지 않습니다. 대신 궤적 무결성의 붕괴, 즉 작은 편차가 누적되거나 결정적인 분기 실수가 진행을 차단하는 방식으로 발생합니다. 이 연구는 Docent 프레임워크를 활용해 실행 추적에 대한 루브릭 기반 평가를 수행했습니다. 루브릭 카테고리는 Intent Alignment(의도 정렬), Plan Adherence(계획 준수), Tool Correctness(도구 정확성), Tool Choice Accuracy(도구 선택 정확성), State Consistency(상태 일관성), Error Recovery(오류 복구)로 구성됩니다. TAU-bench Airline 벤치마크(N=50, 정확도 56%)에서 가장 강력한 실패 신호는 State Tracking Consistency였습니다. 이 루브릭 위반은 실패한 실행에서 2.7배 더 빈번했고(비율=2.7), 위반 시 성공 확률이 49% 감소했습니다(상대 위험비 RR=0.51). 질적으로 이러한 실패는 에이전트의 진화하는 계획/메모리와 환경 상태 간의 잠재적 불일치로 나타났습니다. 예를 들어, 오래된 제약 조건, 잘못 추적된 엔티티, 일관성 없는 가정이 단계를 거치면서 누적되어 최종 도구 호출이 복구 불가능해지는 "느린 실패" 패턴을 보였습니다. 반면 AssistantBench(N=33, 정확도 17.39%)에서는 희소하지만 결정적인 실수가 실패를 지배했습니다. Tool Choice Accuracy 위반은 실패한 실행에서만 나타났으며(비율=∞), 성공 확률을 완전히 제거했습니다(RR=0.00). 이는 잘못된 상호작용 수단(예: 잘못된 탐색 경로, 하위 작업에 부적합한 도구)을 선택한 후 고정된 단계 예산 하에서 복구가 불가능해지는 "빠른 실패" 패턴입니다. 단일 잘못된 분기 결정이 실행을 붕괴시킬 수 있었습니다. 흥미롭게도 Tool Correctness는 성공한 실행과 양의 상관관계를 보였습니다(RR=1.24). 이는 일부 위반이 근본적인 추론 붕괴가 아닌 사소하거나 복구 가능한 도구 문제(예: 매개변수 형식 오류, 일시적 도구 오류)를 포착했음을 시사합니다. 추측컨대, 이 플래그를 트리거하는 에이전트는 실제로 더 복잡한 도구 상호작용을 시도하고 있을 수 있습니다. 그러나 이러한 해석에는 주의가 필요합니다. 루브릭 정의가 "정확성"보다 "도구 사용 흔적"에 더 가까운지, 또는 판정자(judge)가 "대략 맞는" 호출도 정확한 것으로 처리하는지 검증이 필요합니다.

벤치마크	주요 실패 모드	실패 비율	성공 확률 감소
TAU-bench Airline	State Tracking Consistency	2.7배 증가	49% 하락
AssistantBench	Tool Choice Accuracy	실패에서만 발생(∞)	100% 하락

루브릭 기반 접근의 핵심 강점은 실행별 진단 가능성입니다. 전통적 귀속 방법이 "어떤 요소가 전반적으로 중요한가"를 묻는다면, 궤적 루브릭은 "이 특정 실행에서 무엇이 어디서 깨졌는가"를 직접 답합니다. 그러나 비평에서 지적했듯이, 현재 결과는 표본 크기의 제약과 통계적 불확실성 문제를 안고 있습니다. AssistantBench의 성공 사례가 단 2개뿐이어서 많은 비율과 비가 표본 노이즈에 크게 영향받을 수 있습니다. 신뢰구간(bootstrap CI), Fisher exact test 같은 이산형 통계 검정, 또는 베이지안 베타-이항 사후분포로 불확실성을 함께 제시해야 설득력이 강화될 것입니다.

인과성 검증과 설명의 신뢰성 문제

궤적 기반 루브릭 평가가 제공하는 통찰은 강력하지만, 현재 형태는 본질적으로 상관 관계(correlation)에 머물러 있습니다. 예를 들어, State Consistency 위반이 실패와 강하게 연관되어 있다는 것은 확실하지만, 이것이 실패의 원인인지 결과인지는 명확하지 않습니다. 에이전트가 막히면서 상태가 꼬이는 것일 수도 있고, 상태가 먼저 꼬여서 실패로 이어지는 것일 수도 있습니다. 이러한 인과성 문제는 루브릭 라벨링 자체의 신뢰성 문제와 함께 현재 연구의 가장 큰 약점입니다. 루브릭 라벨은 Docent와 GPT-5 Medium judge를 사용해 생성됩니다. 이 판정자는 실행 추적만을 보고 결과(성공/실패)에 대한 접근 없이 평가하도록 설계되었지만, 실제로는 결과와 강하게 상관된 흔적(예: 막힌 상태에서의 반복, 오류 메시지, 단계 예산 소진)이 추적에 남아 있어 간접적인 결과 누설(outcome leakage) 위험이 존재합니다. 게다가 LLM 판정자는 자체적인 해석과 편향을 가지고 있으며, temperature 0.1로 설정했더라도 재현성 문제가 있을 수 있습니다. 더 중요한 것은, 표 7과 8에서 나타나는 직관과 어긋나는 패턴들입니다. 예를 들어 AssistantBench의 Intent Alignment에서 P(flag|failure)=0.774, P(flag|success)=1.000으로, 성공한 2개 실행에서 오히려 플래그(=위반?)가 100%로 나타납니다. 논문은 "루브릭 플래그는 위반"이라고 정의하는데, 그렇다면 성공에서 위반이 더 많다는 것은 모순입니다. 이는 플래그가 실제로 만족(satisfaction)을 나타내거나, 프롬프트/스코어링이 뒤집혔거나, 판정자가 일관되게 오판했거나, 성공 표본이 너무 작아서 발생한 착시 중 하나일 가능성이 높습니다. 이러한 모호함은 "추적 기반 루브릭이 신뢰로운 진단을 제공한다"는 핵심 주장을 직접적으로 약화시킵니다. 인과성을 넘어서기 위해서는 최소한 다음 중 하나가 필요합니다. 첫째, 개입(intervention) 실험입니다. 상태 추적을 외부 메모리로 강제하거나 검증 메커니즘을 추가했을 때 성공률이 실제로 상승하는지 측정해야 합니다. 둘째, 반사실(counterfactual) 분석입니다. 동일한 작업에서 State Consistency만 개선한 가상의 궤적이 성공으로 전환될 수 있는지 시뮬레이션하거나, 최소한 대조 사례를 체계적으로 분석해야 합니다. 셋째, 시간적 선행성(temporal precedence) 분석입니다. 실패 직전이 아니라 초중반부터 State Inconsistency가 먼저 나타나는지 lead-lag 분석을 통해 확인할 필요가 있습니다. 또한 판정자 신뢰성에 대한 엄격한 검증이 필수적입니다. 구체적으로는 (i) 동일 추적을 여러 번 평가했을 때의 일치율, (ii) 다중 판정자 또는 소량 인간 라벨과의 합의도, (iii) 루브릭별 inter-annotator agreement, (iv) 결과를 가린 상태에서 실패 국소화 정확도(failure localization accuracy) 같은 직접 지표가 보고되어야 합니다. 이러한 검증 없이는 루브릭 평가가 설명이 아닌 또 다른 블랙박스 판단이 될 위험이 있습니다.

브리지 실험과 귀속 방법의 역할 재정립

연구팀은 전통적 XAI와 에이전트 설명성 사이의 간극을 연결하기 위해 독창적인 브리지 실험을 수행했습니다. TAU-bench Airline 실행 추적을 루브릭으로 라벨링한 후, 각 궤적을 콤팩트한 이진 특징 벡터로 인코딩했습니다. 각 차원은 행동 제약이 만족되었는지 위반되었는지를 나타냅니다. 이 루브릭 특징을 사용해 작업 성공 대 실패를 예측하는 로지스틱 회귀 모델을 훈련하고, 선형 설명자(linear explainer)를 통해 SHAP 값을 계산했습니다. 결과는 흥미롭습니다. Intent Alignment(평균 |SHAP|=0.473), State Tracking Consistency(0.422), Tool Correctness(0.415)가 결과 예측자의 가장 영향력 있는 특징으로 나타났습니다. 이는 섹션 5.2의 직접 루브릭 분석 결과와 대체로 일치합니다. 즉, 귀속 방법은 에이전트 실행이 저차원의 행동적으로 정의된 특징 공간으로 압축될 때 전역 중요도 순위를 복원할 수 있습니다. 그러나 이 브리지 실험이 보여주는 것은 귀속의 한계이기도 합니다. SHAP는 "어떤 루브릭 특징이 대리 모델의 결과 예측을 유도하는가"를 설명하지, "특정 실행이 왜 실패했는가"를 설명하지 않습니다. 이는 본질적으로 상관적(correlative) 설명입니다. 어떤 루브릭이 전체적으로 중요한지는 알려주지만, 특정 실행 내에서 어떤 제약이 어느 단계에서 위반되었는지는 직접 국소화하지 못합니다. 강화학습 설정에서 SHAP의 한계를 지적한 최근 평가들과 일치하는 결과입니다.

측면	전통적 XAI (SHAP/LIME)	에이전트 XAI (Docent)
입력 표현	집계된 특징 벡터	전체 실행 추적
주요 출력	특징 중요도	루브릭 만족/위반
설명 단위	결과 예측	전체 궤적
시간적 추론	불가능	가능
실행별 실패 국소화	제한적(간접적)	명시적(직접적)
설명 목표	상관적(무엇이 중요한가)	진단적(무엇이 잘못되었는가)

그렇다면 귀속 방법은 에이전트 설명성에서 완전히 쓸모없는 것일까요? 그렇지 않습니다. 브리지 실험은 귀속이 "보완적 요약 도구"로서 가치를 가질 수 있음을 보여줍니다. 행동을 강력하게 추상화한 후(루브릭 특징 공간으로 투사), 전역 중요도 패턴을 파악하고 여러 실행에 걸친 공통 실패 요인을 식별하는 데 유용합니다. 그러나 이는 궤적 수준의 추적 기반 추론을 대체하는 것이 아니라 보완하는 것입니다. 비평이 지적했듯이, 현재 비교에는 공정성 문제가 있습니다. 정적 설정에서는 입력-예측이 고정된 분류에 SHAP/LIME을 적용했고, 에이전트 설정에서는 실행 로그에 루브릭을 붙이는 추적 진단을 사용했습니다. 설명 대상 자체(예측 vs 행동)와 입력 표현이 다르므로, "귀속이 안 된다"는 결론은 더 정확히는 "현재 실험에서 사용한 방식의 귀속이 에이전트 진단에 직접 쓰기 어렵다" 정도로 완화되어야 합니다. 더 공정한 비교를 위해서는 행동 공간(도구 선택, 매개변수, 관찰) 기반의 단계별 귀속이나, 궤적을 상태-행동 특징으로 표현한 후 인스턴스 수준 설명 같은 대안적 귀속 방법을 추가로 검토해야 합니다. 에이전트 시스템의 설명성은 더 이상 "왜 이 예측을 했는가"가 아니라 "왜 이 행동 시퀀스가 발생했는가"를 묻습니다. MEP(Minimal Explanation Packet) 프레임워크는 설명을 독립된 서술이 아닌, 증거와 검증을 동반한 구조화된 패키지로 재정의합니다. 정적 MEP가 입력 텍스트, 예측 레이블, 섭동 안정성으로 구성된다면, 에이전트 MEP는 실행 추적, 도구 로그, 상태 스냅샷, 루브릭 플래그, 재실행 일관성 검사를 포함합니다. 이는 안전이 중요한 배포(의료 분류, 금융 운영, 기업 자동화)에서 시간에 걸친 행동을 정당화하는 감사 가능한 설명의 필요성을 직접 반영합니다. 이 연구는 에이전트 AI 시대의 설명성이 예측 수준에서 궤적 수준으로 전환되어야 한다는 타당한 메시지를 전달하지만, 현재 실험은 표본 크기, 루브릭 라벨의 방향성과 신뢰성, 귀속 비교의 공정성 측면에서 개선의 여지가 있습니다. 불확실성 정량화, 판정자 검증, 개입 실험, 공정한 대조군 설계가 보완된다면 프레임워크 논문에서 증거가 탄탄한 실증 연구로 한 단계 도약할 수 있을 것입니다.

자주 묻는 질문 (FAQ)

Q. 에이전트 AI의 설명성이 전통적 XAI와 다른 핵심 이유는 무엇인가요? A. 전통적 XAI는 단일 입력에서 단일 출력으로의 고정된 매핑을 설명하지만, 에이전트 AI는 상태-행동-관찰의 연속적인 궤적을 통해 작동합니다. 성공과 실패는 개별 예측이 아닌 전체 실행 시퀀스에 의해 결정되므로, 설명의 단위가 특징에서 궤적으로 확장되어야 합니다. 또한 도구 호출, 상태 업데이트, 환경 피드백 같은 시간적 상호작용을 포착해야 하므로, 정적 귀속 방법으로는 "어디서 왜 실패했는지"를 진단하기 어렵습니다. Q. 루브릭 기반 평가의 신뢰성은 어떻게 보장할 수 있나요? A. 현재 연구에서는 LLM 판정자(GPT-5 Medium)를 사용해 실행 추적에 루브릭 라벨을 부여했지만, 이는 판정자의 해석 편향과 결과 누설 위험을 안고 있습니다.

테크 마스터