Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

저자: Axel Backlund, Lukas Petersson | 날짜: 2025-02-20 | DOI: 10.48550/arXiv.2502.15840


Essence

Figure 1

Vending-Bench 벤치마크 개요

본 논문은 LLM 기반 에이전트가 장기간(>2천만 토큰)에 걸쳐 일관된 성능을 유지하는 능력을 평가하기 위해 자판기 운영이라는 단순하지만 장시간 지속되는 비즈니스 시뮬레이션 환경을 제시한다. 실험 결과 Claude 3.5 Sonnet과 o3-mini는 대부분의 실행에서 수익을 창출하지만 모든 모델이 높은 분산도(variance)를 보이며, 배송 일정 오해석, 주문 망각, 또는 "멜트다운" 루프 등으로 인해 장기적으로 성능이 저하됨을 발견했다.

Motivation

Achievement

Figure 3

주요 모델들의 시뮬레이션 기간 동안의 평균 점수 추이

  1. 성능 순위 및 인상적 결과: Claude 3.5 Sonnet이 평균 순자산 $2,217.93으로 최고 성능을 달성하여 인간 기준선($844.05)을 약 2.6배 상회. o3-mini는 두 번째로 $906.86의 순자산 달성.
  2. 높은 분산도 발견: 모든 모델이 매우 높은 성능 분산을 나타냄. 예를 들어 Claude 3.5 Sonnet의 경우 최고 성능 실행에서는 우수하지만, 최악의 경우 $476.00으로 떨어지며, 일부 실행에서는 단 하나의 상품도 판매하지 못함.
  3. 장기 성능 저하: 모든 모델이 평균적으로 시뮬레이션 종료 전에 판매 활동이 정체됨. Claude 3.5 Sonnet도 전체 시뮬레이션의 82.2%까지만 활동적이고 이후 판매가 중단됨.
  4. 컨텍스트 윈도우와의 무관성: 성능 저하가 컨텍스트 윈도우 포화 지점과 명확한 상관관계를 보이지 않아, 실패가 메모리 한계가 아닌 다른 원인에서 비롯됨을 시사.

How

Figure 2

공급자 통신 설정

에이전트 구현:

작업 환경:

환경 설정:

채점 방식:

Originality

Limitation & Further Study

향후 연구 방향:

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 LLM 에이전트의 장기 일관성이라는 중요하지만 소외된 문제를 다루는 실질적이고 잘 설계된 벤치마크를 제시하며, 현재 최고 성능 모델들도 장기간 안정성에서 현저한 문제를 보인다는 발견은 AI 에이전트 개발과 안전 평가에 시사점을 제공한다. 다만 실패 원인 분석의 심화, 인간 기준선의 통계적 확충, 다중 도메인 확장을 통해 연구가 더욱 강화될 수 있을 것으로 판단된다.

같이 보면 좋은 논문

기반 연구
TREE-PLANNER의 효율적인 폐루프 태스크 플래닝 기법이 장기 일관성 벤치마크 설계의 방법론적 기반이 된다.
반론/비판
InternAgent는 다중 에이전트의 협력 성능을 강조하는 반면, Vending-Bench는 단일 에이전트의 장기 일관성 한계를 드러낸다.
← 목록으로 돌아가기