AI 에이전트 환경 생성 (ScaleEnv, 도구 학습, 강화학습)

인공지능 에이전트를 훈련하는 데 있어 가장 큰 병목은 데이터나 모델 크기가 아니라 '환경'입니다. 에이전트가 실제로 도구를 사용하고 피드백을 받으며 학습할 수 있는 인터랙티브한 환경이 절대적으로 부족합니다. ScaleEnv는 이 문제를 해결하기 위해 완전히 실행 가능한 환경과 검증 가능한 태스크를 처음부터 자동으로 생성하는 프레임워크입니다. 이 논문은 환경의 다양성을 스케일링하는 것이 에이전트의 일반화 성능에 얼마나 결정적인지를 실증적으로 보여줍니다.

ScaleEnv의 환경 구축 메커니즘

ScaleEnv는 두 단계로 구성됩니다. 첫 번째 단계는 Domain Foundation 구축입니다. 도메인 키워드만으로 Large Language Models(LLMs)를 활용해 도구와 데이터베이스 스키마를 정의합니다. 예를 들어 'Job Seeking'이라는 키워드에서 출발해 submit_application, upload_resume 같은 도구 스키마를 생성하고, 이를 지원하는 Application 테이블, Job 테이블 등의 데이터베이스 구조를 역설계합니다. 이 과정에서 도구의 파라미터, 사전조건(pre-condition), 사후조건(post-condition)까지 엄밀하게 정의합니다. 핵심은 Procedural Testing 메커니즘입니다. 생성된 코드는 단순히 문법적으로 옳은지만 확인하는 것이 아니라, 실제로 실행해보고 예상된 결과가 나오는지 검증합니다. Code Agent가 도구 로직을 구현하면, Test Agent가 유닛 테스트 케이스와 매칭되는 데이터베이스 인스턴스를 동시에 합성합니다. 실행 결과는 세 가지로 분류됩니다. Success는 에러 없이 실행되고 상태 전환이 예상과 일치하는 경우, Anticipated Rejection은 잘못된 입력을 올바르게 거부하는 경우, Unexpected Failure는 런타임 에러나 상태 불일치가 발생한 경우입니다. 마지막 경우 Debug Agent가 에러 로그를 분석해 도구 구현이나 데이터베이스 인스턴스를 반복적으로 수정합니다. 이렇게 검증된 도구들은 Tool Dependency Graph로 통합됩니다. Tool Dependency Agent가 도구 간 데이터 흐름(파라미터 전달), 논리적 선후관계(pre/post-condition), 상태 의존성(공유 데이터베이스 테이블)을 분석해 방향성 있는 그래프를 구성합니다. 이 그래프는 이후 태스크 생성의 기반이 됩니다. 16개 합성 도메인에서 각 환경은 약 50개 도구와 5~20개 데이터베이스 테이블로 구성되었습니다.

단계	주요 작업	검증 방식
Schema Definition	도구/DB 스키마 생성	논리적 일관성 확인
Implementation	실행 가능 코드 생성	Procedural Testing
Graph Construction	도구 의존성 매핑	인과관계 검증

사용자 비평에서 지적된 '완전 자동'의 비용 문제는 설득력이 있습니다. ScaleEnv는 구조적으로 여러 LLM 에이전트(스키마, DB, 코드, 테스트, 디버그, 의존성 에이전트 등)를 호출하며, 16 도메인 × 50 도구 × 반복적 디버깅이라면 실제 생성 비용이 막대할 수 있습니다. 논문은 결과 성능은 보여주지만, 총 토큰 수, 평균 디버그 루프 횟수, 실패율 같은 운영 지표가 없어 '스케일링 가능한 생산 공정'임을 입증하기 어렵습니다. 또한 환경 생성 성공률, 즉 16개 도메인 중 몇 %가 완전히 자동으로 완성되었는지, 실패한 도메인은 어떻게 처리했는지에 대한 투명한 보고가 필요합니다.

태스크 생성과 그래프 확장 전략

두 번째 단계는 Task Instantiation via Graph Expansion입니다. 여기서 핵심 과제는 강화학습(RL)에 필요한 고품질 환경을 구성하는 것입니다. RL 환경은 두 가지 요구사항을 충족해야 합니다. 첫째는 Entity Consistency, 즉 데이터베이스 테이블 간 일관성입니다. 예를 들어 Order 테이블의 user_id는 User 테이블의 실제 엔티티와 매핑되어야 합니다. 둘째는 Interaction Completeness로, 최적 경로뿐 아니라 에이전트가 시도할 수 있는 모든 유효한 도구 호출에 대해 의미 있는 관찰(observation)을 반환해야 합니다. 태스크 초기화는 세 단계로 진행됩니다. 먼저 Tool Dependency Graph G에서 실행 가능한 Seed Tool Chain C₁=(a₁, a₂, ..., aₖ)을 샘플링합니다. 이 체인은 코드로 표현되며, LLM이 그래프 구조와 데이터베이스 스키마를 기반으로 생성합니다. 코드 형식은 도구 시퀀스와 파라미터를 동시에 모델링하고, 선행 액션 aᵢ의 출력이 후속 액션 aᵢ₊₁의 입력으로 자연스럽게 전달되도록 합니다. 다음으로 C₁을 지원하는 초기 환경 상태 s⁰ₑₙᵥ를 구성합니다. LLM 기반 파이프라인이 s⁰ₑₙᵥ를 합성하고, C₁을 실제로 실행해 태스크 실행 가능성을 검증합니다. 동시에 distractor 레코드를 주입해 에이전트가 정보 필터링 능력을 갖추도록 합니다. 마지막으로 검증된 C₁과 s⁰ₑₙᵥ를 기반으로 사용자 프로필 Pᵤₛₑᵣ와 사용자 지시 u를 합성합니다. u는 C₁을 정답 해법으로 삼아 생성되므로 환경에 근거하지 않은 환각(hallucination)을 방지합니다. 환경 확장은 Dependency-Aware BFS와 LLM-Gated Chain Expansion으로 이루어집니다. 초기 체인 C₁만으로는 에이전트가 과적합할 위험이 있으므로, C₁을 의미적으로 밀집된 서브그래프 ℋ₁=K(C₁)⊂G로 확장합니다. 단순 무작위 주입은 의존성 데드엔드(prerequisite를 만족할 수 없는 노드)를 유발하므로, Dependency-Aware BFS를 사용합니다. ℋ₁=C₁에서 시작해, 새 도구 노드 v∈G를 ℋ₁에 추가할 때 v의 입출력 의존성이 ℋ₁의 도구 서브셋으로 완전히 만족 가능한지 확인합니다. 추가된 도구는 파라미터를 ℋ₁에서 파생해 실행하고, 오류 발생 시 환경을 패치합니다. 더 나아가 새로운 시드 체인 C₂, ..., Cₙ을 생성해 환경을 확장합니다. 𝒟ₙ=G∖ℋₙ을 후보 도구 집합으로 정의하고, LLM 기반 게이팅 정책 π로 확장 여부를 결정합니다. 정책 π는 세 가지 메트릭을 고려합니다. Structural Complexity c(ℋₙ)=|Vℋₙ|+λ|Eℋₙ|/Sₛₐₜ는 도구와 의존성의 복잡도를 정량화합니다(λ=0.5, Sₛₐₜ=50). Feasibility Score g(𝒟ₙ)는 Oracle 에이전트(Qwen3-235B-A22B + best-of-16 롤아웃)가 𝒟ₙ에서 실행 가능한 체인을 찾을 성공률입니다. 이 메트릭들과 |𝒟ₙ|을 입력받아 LLM은 호환성 점수 p∈[0,1]을 출력하고, p≥τ이면 새 체인 Cₙ₊₁을 샘플링해 ℋₙ₊₁=ℋₙ∪K(Cₙ₊₁)로 병합합니다. 최소 제약 |ℋₙ|≥20을 강제해 충분한 탐색 공간을 보장합니다.

확장 메트릭	의미	임계값
Structural Complexity	도구 수 + 의존성 복잡도	50 (포화 상수)
Feasibility Score	Oracle 체인 발견 성공률	[0,1] 확률
최소 도구 수	탐색 공간 보장	20개 이상

사용자 비평이 지적한 대로, 환경 품질 지표가 부족합니다. 도메인별 평균 도구 수, 테이블 수, 그래프 노드/엣지 수, 평균 체인 길이, 사전조건 위반율, anticipated rejection 비율 등의 통계가 제시되어야 '환경 다양성'이 구체적으로 무엇을 의미하는지 명확해집니다. 또한 N=2/4/8/16 도메인 실험에서 task 수를 1024로 고정했지만, 도메인이 늘면 자연스럽게 툴/DB 스키마 다양성, 그래프 복잡도가 달라질 수 있습니다. '같은 1024 task'라도 난이도 분포가 통제되지 않으면 교란(confound)이 발생합니다. 진정한 '다양성 효과'를 주장하려면 평균 난이도, 구조적 복잡도 같은 변수를 N별로 리포트해야 합니다.

실험 결과와 도메인 스케일링 분석

ScaleEnv로 훈련된 Qwen3-SE 모델은 τ²-Bench와 VitaBench에서 일관된 성능 향상을 보였습니다. 이는 엄격한 Out-of-Distribution(OOD) 평가입니다. 훈련 도메인 16개는 평가 도메인(Airline, Retail, Telecom, Delivery, In-store, OTA, Cross)과 완전히 분리되었고, 벤치마크는 훈련 중 보지 못한 정책 제약 대화 같은 형식을 포함합니다. τ²-Bench에서 Qwen3-SE-8B는 베이스라인 대비 Retail +12.5, Airline +7.0, Telecom +5.7 향상을 기록했습니다. Qwen3-SE-32B는 VitaBench Cross 도메인에서 10.8점 상승해 베이스의 두 배 성능을 달성했습니다. 추론 일반화(Reasoning Generalization) 측면에서 VitaBench Cross 도메인은 특히 도전적입니다. "I am sick"라는 모호한 입력에서 "가벼운 음식 추천"이라는 잠재 의도를 추론해야 합니다. Pass@4 메트릭(4회 시도 중 1회 이상 성공)에서 Qwen3-SE-32B는 Cross에서 29점을 기록해, 베이스 15점의 거의 두 배입니다. 이는 ScaleEnv의 검증 가능한 환경이 단순 패턴 암기가 아닌 고차원 추론 능력을 학습시킴을 시사합니다. 도메인 일반화(Domain Generalization)는 훈련과 평가 도메인 간 의미적 거리가 멀어도 일관된 개선을 보인다는 점에서 주목할 만합니다. 형식 일반화(Format Generalization)는 τ²-Bench의 긴 텍스트 정책 준수 요구사항에서도 ScaleEnv 훈련이 효과적임을 입증합니다. Domain Scaling Analysis는 핵심 기여 중 하나입니다. N=2, 4, 8, 16 도메인으로 훈련하되 task 수를 1024로 고정한 결과, 도메인 수가 증가할수록 VitaBench와 τ²-Bench 모두에서 Pass@4가 단조 증가했습니다. 이는 '환경 다양성'이 모델 일반화의 결정적 요인임을 실증합니다. N=16에서도 성능이 완전히 포화되지 않았으므로, 더 많은 도메인으로 스케일링할 여지가 있습니다. 다만 사용자 비평대로, 이 결과가 순수한 '다양성 효과'인지, 도메인 증가에 따른 평균 난이도/구조 복잡도 증가 효과인지 명확히 분리하려면 추가 통제 변수가 필요합니다. Ablation 실험에서 Execution Verification(EV)의 효과는 Table 3에서 혼재된 결과를 보입니다. EV 제거 시 Retail과 Telecom에서 오히려 베이스 대비 성능이 상승했고, Airline은 거의 변화가 없었습니다. 논문은 "EV 제거가 성능 저하"를 주장하지만 표는 일관되지 않습니다. 가능한 해석은 EV 없는 데이터가 더 거친 노이즈를 포함해 일종의 정규화 효과를 냈거나, EV 과정이 정답 경로를 너무 깔끔하게 만들어 탐색 다양성을 줄였을 가능성입니다. 이는 평균 런타임 실패율, 무효 툴콜 비율, 보상 노이즈 분산 같은 지표로 보완 설명이 필요합니다. 보상 메커니즘 비교(Table 4)에서 rule-based가 LLM-as-a-Judge보다 약간 우수했습니다. 그러나 LLM judge의 프롬프트, 모델, 정보 조건이 명시되지 않았습니다. Rule-based는 정답 DB 상태 s_gt_env를 갖고 비교하므로, LLM judge가 동일한 정보를 받지 않았다면 비교가 불공정합니다. 동일 정보 조건에서 재비교가 있어야 "judge가 해킹당한다" 주장이 설득력을 얻습니다. Domain Stability Analysis(Table 5)는 서로 다른 4개 도메인 세트(Set A, Set B)로 훈련해도 일관되게 베이스를 상회함을 보였습니다. 이는 특정 '운 좋은 도메인'이 아니라 ScaleEnv 프레임워크 자체의 구조적 장점임을 시사합니다.

벤치마크	베이스(Qwen3-8B)	ScaleEnv(Qwen3-SE-8B)	개선폭
τ²-Bench Retail	38.4	50.9	+12.5
VitaBench Cross	1.5	3.0	+1.5
VitaBench Delivery	18.3	26.3	+8.0

사용자 비평에서 OOD 주장의 엄밀성 문제는 타당합니다. 도메인 키워드 기반 생성은 평가 도메인과 유사한 API/테이블 구조를 생성할 가능성이 있습니다. Tool embedding 분포가 떨어져 있다는 언급은 정성적이며, embedding 설계/모델/거리 기준에 따라 결과가 달라질 수 있습니다. 진정한 OOD를 증명하려면 스키마 유사도, 그래프 구조 유사도, 텍스트 유사도를 정량화하고, '유사 도메인 제거' 같은 통제 절차가 필요합니다. 또한 평가 도메인과 동일한 도메인 키워드/툴 이름 금지 규칙 같은 명시적 통제도 기대됩니다. ScaleEnv는 에이전트 학습의 패러다임을 '데이터 수집'에서 '환경 공장'으로 전환할 가능성을 열었습니다. 실행 가능한 코드 기반 환경 생성, procedural testing, 의존성 그래프 확장은 방법론적으로 견고하며, 도메인 스케일링이 일반화 성능을 향상시킨다는 실증 결과는 의미가 큽니다. 그러나 생성 비용의 투명성, OOD 검증 엄밀성, ablation 결과 해석, 보상 비교 공정성 측면에서 보완이 필요합니다. 특히 환경 품질 지표(도구 수, 테이블 수, 체인 길이, 실패율 등)와 생성 성공률, 평균 디버그 루프 같은 운영 메트릭이 추가되면 ScaleEnv의 실용성이 더욱 설득력 있게 입증될 것입니다.

자주 묻는 질문 (FAQ)

Q. ScaleEnv는 기존 LLM 시뮬레이터와 비교해 어떤 장점이 있나요? A. LLM 시뮬레이터는 낮은 비용과 유연한 도메인 정의가 장점이지만, 환각(hallucination)에 취약하고 환경 상태 일관성을 유지하기 어렵습니다. ScaleEnv는 실행 가능한 코드로 도구와 데이터베이스를 구현하고 procedural testing으로 검증하므로, 에이전트가 실제로 실행해보며 학습할 수 있는 고신뢰성 환경을 제공합니다. Q. 도메인 수를 늘리면 항상 성능이 향상되나요? A. 논문의 실험(N=2, 4, 8, 16)에서는 도메인 수 증가에 따라 τ²-Bench와 VitaBench 성능이 단조 증가했습니다. 다만 N=16에서도 포화되지 않았으므로 추가 스케일링 여지가 있습니다. 단, 도메인 다양성뿐 아니라 구조적 복잡도, 난이도 분포 같은 변수도 영향을 줄 수 있어 순수 다양성 효과 분리에는 더 통제된 실험이 필요합니다. Q. ScaleEnv의 환경 생성 비용은 얼마나 되나요? A. 논문은 결과 성능은 보여주지만, 총 토큰 수, 평균 디버그 루프 횟수, 생성 실패율 같은 운영 지표는 명시하지 않았습니다. 16개 도메인 × 약 50개 도구 × 반복적 디버깅 파이프라인을 고려하면 상당한 LLM 호출 비용이 예상되며, 실용적 스케일링 가능성을 입증하려면 이러한 메트릭의 공개가 필요합니다. Q. Rule-based 보상과 LLM-as-a-Judge는 어떤 차이가 있나요? A. Rule-based는 정답 데이터베이스 상태(s_gt_env)와 에이전트의 최종 상태를 직접 비교해 객관적인 보상을 제공합니다. LLM-as-a-Judge는 언어적 유연성이 있지만 보상 해킹에 취약하고 계산 비용이 높습니다. 논문의 ablation 실험에서는 rule-based가 약간 우수했으나, 동일 정보 조건 비교가 명시되지 않아 추가 검증이 필요합니다. Q. VitaBench Cross 도메인이 특히 어려운 이유는 무엇인가요? A. Cross 도메인은 모호한 사용자 요구("I am sick")에서 잠재 의도("가벼운 음식 추천")를 추론하고, 다단계 계획을 세우는 복잡한 추론을 요구합니다. 이는 단순 도구 호출을 넘어 고차원 논리적 사고가 필요해, 베이스 모델의 성능이 극도로 낮지만(Qwen3-8B 1.5점) ScaleEnv 훈련으로 크게 향상됩니다(3.0점). --- [출처] ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training: https://arxiv.org/html/2602.06820v1

테크 마스터