전체 글37 AI 에이전트 환경 생성 (ScaleEnv, 도구 학습, 강화학습) 인공지능 에이전트를 훈련하는 데 있어 가장 큰 병목은 데이터나 모델 크기가 아니라 '환경'입니다. 에이전트가 실제로 도구를 사용하고 피드백을 받으며 학습할 수 있는 인터랙티브한 환경이 절대적으로 부족합니다. ScaleEnv는 이 문제를 해결하기 위해 완전히 실행 가능한 환경과 검증 가능한 태스크를 처음부터 자동으로 생성하는 프레임워크입니다. 이 논문은 환경의 다양성을 스케일링하는 것이 에이전트의 일반화 성능에 얼마나 결정적인지를 실증적으로 보여줍니다.ScaleEnv의 환경 구축 메커니즘ScaleEnv는 두 단계로 구성됩니다. 첫 번째 단계는 Domain Foundation 구축입니다. 도메인 키워드만으로 Large Language Models(LLMs)를 활용해 도구와 데이터베이스 스키마를 정의합니다. .. 2026. 2. 15. LLM 온라인 프루닝 (POP, 추론 효율성, 생성 태스크) 대규모 파운데이션 모델(LFM)은 뛰어난 성능을 보이지만, 그만큼 막대한 연산 비용이 발생합니다. 이를 해결하기 위해 구조적 프루닝(structural pruning) 기법이 주목받고 있지만, 기존 방법들은 추론 초기 단계에서 고정된 프루닝 결정을 내리고 전체 생성 과정에 동일하게 적용합니다. 본 글에서는 자동회귀 토큰 생성 중 나타나는 맥락 의존적 희소성(contextual sparsity)을 활용한 새로운 온라인 구조적 프루닝 프레임워크인 POP(Partition-guided Online Pruning)를 소개합니다. POP는 오프라인 캘리브레이션이나 재학습 없이도 LLM, MoE 모델, 비전-언어 모델(VLM) 등 다양한 대규모 모델에 즉시 적용 가능한 플러그 앤 플레이 방식의 혁신적인 접근법입니다.. 2026. 2. 14. LLM 다중 에이전트 균형 (게임이론, 정치적 배제, 거버넌스) 인공지능 대규모 언어모델(LLM)이 일상적 의사결정과 소셜미디어 운영 등 다양한 영역에서 자율적 에이전트로 활동하는 시대가 도래하면서, 이들의 상호작용과 집단적 행동 양상을 예측하고 조정하는 문제가 중요한 과제로 부상하고 있습니다. 특히 여러 LLM이 전략적으로 경쟁하거나 협력하는 환경에서는 개별 모델의 정렬(alignment)만으로는 시스템 전체의 바람직한 결과를 보장하기 어렵습니다. 본 글은 Nash 균형(Nash Equilibrium) 개념을 활용해 LLM 집단의 행동을 분석하고, 특정 인간 하위집단이 체계적으로 배제되는 '정치적 배제(political exclusion)' 현상을 규명하며, 이를 해결하기 위한 거버넌스 방안을 제시한 최신 연구를 깊이 있게 살펴봅니다.게임이론적 접근과 Nash 균형.. 2026. 2. 13. 연합학습의 프라이버시 보장 (적응형 DP, 이질적 데이터, 안정적 집계) 최근 분산 환경에서 데이터 프라이버시를 유지하면서 모델을 학습하는 연합학습(Federated Learning) 기술이 주목받고 있습니다. 그러나 실제 환경에서는 디바이스 간 이질성과 Non-IID 데이터 분포로 인해 학습이 불안정해지는 문제가 발생합니다. 특히 차등 프라이버시(Differential Privacy)를 적용하면 고정된 그래디언트 클리핑과 가우시안 노이즈 주입이 성능 저하를 더욱 심화시킵니다. 본문에서는 FedCompDP라는 적응형 차등 프라이버시 연합학습 프레임워크의 핵심 설계와 실험 결과를 살펴보고, 해당 연구의 강점과 개선이 필요한 부분을 종합적으로 분석합니다.적응형 DP 클리핑과 프라이버시 회계의 문제점FedCompDP 프레임워크의 핵심 구성 요소 중 하나는 적응형 차등 프라이버시 그.. 2026. 2. 12. 이전 1 2 3 4 5 ··· 10 다음