Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

Essence

Vending-Bench 벤치마크 개요

본 논문은 LLM 기반 에이전트가 장기간(>2천만 토큰)에 걸쳐 일관된 성능을 유지하는 능력을 평가하기 위해 자판기 운영이라는 단순하지만 장시간 지속되는 비즈니스 시뮬레이션 환경을 제시한다. 실험 결과 Claude 3.5 Sonnet과 o3-mini는 대부분의 실행에서 수익을 창출하지만 모든 모델이 높은 분산도(variance)를 보이며, 배송 일정 오해석, 주문 망각, 또는 "멜트다운" 루프 등으로 인해 장기적으로 성능이 저하됨을 발견했다.

Motivation

Known: LLM은 격리된 단기 작업에서 인상적인 성능을 보이나, 더 긴 시간 지평에서 일관된 성능 유지에 실패함. OpenAI 공동 창립자 John Schulman과 AI 안전 조직 METR이 장기 일관성(long-term coherence)이 중요한 누락된 능력임을 지적.
Gap: 기존 평가는 매우 복잡한 작업(AI R&D)에 초점을 맞추고 있어, 단순하지만 장시간 실행되는 작업에서의 장기 일관성을 체계적으로 측정하는 벤치마크가 부재.
Why: 장기 일관성은 (1) AI 에이전트의 실용성 평가에 필수적이며, (2) 자본 확보 및 자원 관리 능력은 AI 안전 관련 위험 시나리오에서도 중요한 이중용도 기술(dual-use capability)임.
Approach: 자판기 운영이라는 관리 가능한 복잡도의 시뮬레이션 환경을 설계하여, 단순한 개별 작업들(재고 관리, 주문, 가격 설정, 수수료 처리)이 장기간에 걸쳐 에이전트의 일관성을 어떻게 저해하는지 관찰.

Achievement

주요 모델들의 시뮬레이션 기간 동안의 평균 점수 추이

성능 순위 및 인상적 결과: Claude 3.5 Sonnet이 평균 순자산 $2,217.93으로 최고 성능을 달성하여 인간 기준선($844.05)을 약 2.6배 상회. o3-mini는 두 번째로 $906.86의 순자산 달성.
높은 분산도 발견: 모든 모델이 매우 높은 성능 분산을 나타냄. 예를 들어 Claude 3.5 Sonnet의 경우 최고 성능 실행에서는 우수하지만, 최악의 경우 $476.00으로 떨어지며, 일부 실행에서는 단 하나의 상품도 판매하지 못함.
장기 성능 저하: 모든 모델이 평균적으로 시뮬레이션 종료 전에 판매 활동이 정체됨. Claude 3.5 Sonnet도 전체 시뮬레이션의 82.2%까지만 활동적이고 이후 판매가 중단됨.
컨텍스트 윈도우와의 무관성: 성능 저하가 컨텍스트 윈도우 포화 지점과 명확한 상관관계를 보이지 않아, 실패가 메모리 한계가 아닌 다른 원인에서 비롯됨을 시사.

How

공급자 통신 설정

에이전트 구현:

기본 루프 기반 설계로 과도한 복잡도 추가 방지 및 모델 간 공정성 유지
컨텍스트 관리: 이력의 최근 30,000 토큰만 입력으로 제공
메모리 도구: 스크래치패드, 키-값 저장소, 벡터 데이터베이스(OpenAI text-embedding-3-small 사용) 제공
AISI의 inspect-ai 프레임워크 활용

작업 환경:

원격 작업: 이메일 송수신, 검색 엔진(Perplexity) 활용, 재고 및 잔액 확인
물리적 작업: 서브에이전트를 통해 상품 적재, 현금 수거, 가격 설정, 재고 확인 위임
공급자 통신 시뮬레이션: 에이전트의 이메일 요청에 대해 Perplexity로 실제 공급자 정보 수집 후 GPT-4o로 현실적인 회신 생성
고객 구매 시뮬레이션: 가격 탄력성(price elasticity) 모델 기반 일일 판매량 계산, 요일/월/날씨 영향 요소 포함

환경 설정:

초기 자본: $500, 일일 운영비: $2
자판기: 4개 행 × 3개 열, 소형/대형 상품 구분
실행 종료 조건: 2,000 메시지 도달 또는 10일 연속 적자로 파산
각 모델마다 5회 실행, 약 2,500만 토큰 소비

채점 방식:

주요 지표: 순자산 = 현금 잔액 + 미회수 현금 + 미판매 상품 가치(원가 기준)
보조 지표: 잔액, 판매 단위, 도구 사용 패턴

Originality

장기 일관성에 특화된 벤치마크: 기존 벤치마크는 짧은 시간대 고난도 작업에 초점을 맞춘 반면, 본 논문은 단순하지만 초장기(>2천만 토큰) 시뮬레이션 환경을 새롭게 제시.
현실적 환경 시뮬레이션: 실제 공급자 데이터 기반 이메일 생성, 경제학적 가격 탄력성 모델, 날씨/계절 영향 등 반영하여 단순함 속에 현실성 확보.
서브에이전트 아키텍처: 디지털 AI와 물리적 실행 주체의 상호작용을 시뮬레이션하기 위해 inspect-ai 확장 라이브러리 개발 및 오픈소스화.
이중용도 기술 평가: 자본 획득 및 자원 관리라는 AI 안전 관련 핵심 능력을 평가하는 데 초점.
인간 기준선 포함: 사전 지식 없이 같은 프롬프트로 5시간 수행한 인간 참여자의 성능을 비교 기준으로 제시.

Limitation & Further Study

단일 작업 도메인: 자판기 운영만 평가하므로, 다른 장기 비즈니스 시나리오(소매점, 배달 서비스 등)에서도 유사한 성능 저하가 발생하는지 불명확.
인간 기준선 제한적: 단 한 명의 인간 참여자의 5시간 실행만으로 통계적 신뢰도가 낮음. 다수 참여자의 반복 실행으로 인간 성능 분산도 정량화 필요.
성능 저하 원인 분석 부족: 논문이 "멜트다운", 배송 일정 오해석 등을 보고하지만, 각 실패 사례의 근본 원인(hallucination, attention 저하, instruction 추적 상실 등)에 대한 심층 분석 미흡.
컨텍스트 관리의 효과 미검증: 30,000 토큰 컨텍스트 윈도우 설정의 선택 근거 및 다른 크기의 영향을 비교하는 ablation study 부재.
위험 기술 관련 우려: 저자들이 위험 능력(자본 획득) 평가의 윤리적 위험을 인정하면서도 "체계적 평가가 필수"라고 주장하지만, 능력 개선 피드백 루프를 명확하게 차단하는 안전 메커니즘이 제시되지 않음.

향후 연구 방향:

각 모델의 실패 패턴을 자세히 분석하여 원인 규명 (예: 벡터 데이터베이스 검색 품질, 메모리 도구 활용도 등)
다양한 비즈니스 도메인으로 벤치마크 확장
에이전트 아키텍처 개선(예: 강화학습 기반 반성/수정 루프)이 장기 일관성에 미치는 영향 평가
더 큰 샘플 크기의 인간 기준선 수집

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 LLM 에이전트의 장기 일관성이라는 중요하지만 소외된 문제를 다루는 실질적이고 잘 설계된 벤치마크를 제시하며, 현재 최고 성능 모델들도 장기간 안정성에서 현저한 문제를 보인다는 발견은 AI 에이전트 개발과 안전 평가에 시사점을 제공한다. 다만 실패 원인 분석의 심화, 인간 기준선의 통계적 확충, 다중 도메인 확장을 통해 연구가 더욱 강화될 수 있을 것으로 판단된다.

같이 보면 좋은 논문

기반 연구

Tree-planner: Efficient close-loop task planning with large language models

TREE-PLANNER의 효율적인 폐루프 태스크 플래닝 기법이 장기 일관성 벤치마크 설계의 방법론적 기반이 된다.

반론/비판

InternAgent: When Agent Becomes the Scientist–Building Closed-Loop System from Hypothesis to Verification

InternAgent는 다중 에이전트의 협력 성능을 강조하는 반면, Vending-Bench는 단일 에이전트의 장기 일관성 한계를 드러낸다.