Towards a Science of Scaling Agent Systems

저자: Yubin Kim, Ken Gu, Chanwoo Park, Chunjong Park, Samuel Schmidgall, A. Ali Heydari, Yao Yan, Zhihan Zhang, Yuchen Zhuang, Mark Malhotra, Paul Pu Liang, Hae Won Park, Yuzhe Yang, Xuhai Xu, Yilun Du, Shwetak Patel, Tim Althoff, Daniel McDuff, Xin Liu | 날짜: 2025-12-17 | DOI: 10.48550/arXiv.2512.08296


Essence

Figure 1

Figure 1: 모델 지능(Intelligence Index)과 에이전트 구조에 따른 성능 변화. 세 가지 LLM 계열(OpenAI, Google, Anthropic)에서 다중 에이전트 시스템(MAS) 변형이 단일 에이전트 시스템(SAS) 대비 상이한 확장 특성을 보임.

본 논문은 언어 모델 기반 에이전트 시스템의 성능을 결정하는 정량적 확장 원칙(scaling laws)을 최초로 체계적으로 도출한 연구이다. 도구 활용도, 모델 능력, 작업 특성 간의 상호작용을 분석하여 다중 에이전트 시스템(MAS)이 언제 성능을 향상시키고 언제 저하시키는지 정량화하는 예측 프레임워크를 제시한다.

Motivation

Achievement

Figure 2

Figure 2: 다양한 작업 도메인에서 단일 에이전트 시스템과 다중 에이전트 시스템의 성능 비교. 웹 네비게이션과 금융 추론에서 상이한 아키텍처 효과가 관찰됨.

  1. 세 가지 지배적 확장 패턴 발견
    • 도구-좌표화 트레이드오프 (β=-0.267, p<0.001): 도구가 많은 작업(예: 16개 도구 소프트웨어 엔지니어링)에서 MAS는 에이전트당 토큰 예산 감소로 인해 복잡한 도구 조율이 어려워짐.
    • 능력 포화(capability ceiling) (β=-0.404, p<0.001): 단일 에이전트 기준 성능이 ~45% 초과 시 추가 에이전트는 좌표화 비용이 증분 개선보다 커져 성능 저하.
    • 토폴로지 의존적 오류 증폭: 독립적 에이전트는 17.2배 오류 증폭, 중앙화된 좌표화는 4.4배로 억제.
  2. 작업 조건부 아키텍처 성능
    • 중앙화 좌표화(Centralized): 병렬화 가능한 금융 추론에서 +80.8% 성능 향상
    • 분산 좌표화(Decentralized): 동적 웹 네비게이션에서 +9.2% 개선 (+0.2% vs SAS)
    • 모든 MAS 변형: 순차 추론 작업에서 -39% ~ -70% 성능 저하
  3. 예측 프레임워크 수립
    • 교차 검증 R²=0.524: 데이터셋 특화 파라미터 없이 보유한(held-out) 작업 도메인에 대한 성능 예측 가능
    • 최적 아키텍처 예측 정확도 87%
    • GPT-5.2 비표본 검증(out-of-sample validation): MAE=0.071, 5가지 확장 원칙 중 4가지가 미공개 최신 모델로 일반화됨 확인

How

Figure 3

Figure 3: 모델 계열과 아키텍처 간의 비용-성능 트레이드오프. 좌표화 오버헤드의 상대적 중요성이 모델 능력과 작업 유형에 따라 변함.

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 에이전트 시스템의 확장 원칙을 정량화하는 첫 대규모 제어 실험으로서, "다중 에이전트 = 항상 이득"이라는 통설을 정교하게 반박하고 작업-아키텍처 정렬이 성공의 핵심임을 증명했다. 특히 도구-좌표화 트레이드오프, 능력 포화, 토

같이 보면 좋은 논문

기반 연구
에이전트 시스템 확장의 과학적 기반을 제공하여 다중 에이전트 대화의 효과적인 확장 방법론을 설계할 수 있습니다.
기반 연구
에이전트 시스템 확장 과학이 다중 에이전트 위험 분석의 이론적 토대를 제공함
← 목록으로 돌아가기