저자: Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A. Ali Heydari, Yao Yan, Zhihan Zhang, Yuchen Zhuang, Mark Malhotra, Paul Pu Liang, Hae Won Park, Yuzhe Yang, Xuhai Xu, Yilun Du, Shwetak Patel, Tim Althoff, Daniel McDuff, Xin Liu | 날짜: 2025-12-17 | DOI: 10.48550/arXiv.2512.08296
Figure 1: 모델 지능(Intelligence Index)과 에이전트 구조에 따른 성능 변화. 세 가지 LLM 계열(OpenAI, Google, Anthropic)에서 다중 에이전트 시스템(MAS) 변형이 단일 에이전트 시스템(SAS) 대비 상이한 확장 특성을 보임.
본 논문은 언어 모델 기반 에이전트 시스템의 성능을 결정하는 정량적 확장 원칙(scaling laws)을 최초로 체계적으로 도출한 연구이다. 도구 활용도, 모델 능력, 작업 특성 간의 상호작용을 분석하여 다중 에이전트 시스템(MAS)이 언제 성능을 향상시키고 언제 저하시키는지 정량화하는 예측 프레임워크를 제시한다.
Figure 2: 다양한 작업 도메인에서 단일 에이전트 시스템과 다중 에이전트 시스템의 성능 비교. 웹 네비게이션과 금융 추론에서 상이한 아키텍처 효과가 관찰됨.
Figure 3: 모델 계열과 아키텍처 간의 비용-성능 트레이드오프. 좌표화 오버헤드의 상대적 중요성이 모델 능력과 작업 유형에 따라 변함.
총평: 본 논문은 에이전트 시스템의 확장 원칙을 정량화하는 첫 대규모 제어 실험으로서, "다중 에이전트 = 항상 이득"이라는 통설을 정교하게 반박하고 작업-아키텍처 정렬이 성공의 핵심임을 증명했다. 특히 도구-좌표화 트레이드오프, 능력 포화, 토