StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

저자: Zhicheng Guo, Sijie Cheng, Hao Wang, Shihao Liang, Yujia Qin, Peng Li, Zhiyuan Liu, Maosong Sun, Yang Liu | 날짜: 2025-03-05 | DOI: 10.48550/arXiv.2403.07714


Essence

Figure 1

ToolBench에서 보고된 성능과 재현된 성능의 비교: 몇 개월 후 동일한 설정에서 재현했을 때 상당한 성능 저하 발생

대규모 언어 모델(LLM)이 도구를 활용하는 능력을 평가하기 위해 안정적인 벤치마크가 필수적인데, 기존 ToolBench는 실시간 API의 불안정성으로 인해 결과 재현성이 떨어진다. 본 논문은 가상 API 서버와 안정적인 평가 시스템을 통해 이 문제를 해결한 StableToolBench를 제안한다.

Motivation

Achievement

Figure 3

ToolBench의 API 상태 변화: 성공 44.4%, 연결 불가 14.8%, 파싱 오류 25.9% 등

  1. 안정적 벤치마크 구축: 가상 API 서버(캐싱 + 시뮬레이터)와 개선된 평가 시스템으로 API 변화에 강건한 평가 환경 제공
  2. 성능 안정성 입증: Figure 4에서 API 실패율이 증가해도 새로운 평가 지표는 일관된 결과 유지(기존 방식은 10-50% API 실패 시 5-25% 성능 저하)
  3. 평가 시스템 개선: GPT-3.5의 판별 불가 문제(Table 1의 "Unsure" 항목)를 GPT-4로 대체하여 안정성 향상

How

Figure 2

ToolBench의 Pass Rate 평가 방식: "Unsure" 상태에서 임의 결정으로 인한 불안정성

가상 API 서버 (Virtual API Server)

안정적 평가 시스템 (Stable Evaluation System)

Originality

Limitation & Further Study

Evaluation

총평: StableToolBench는 기존 대규모 도구 학습 벤치마크의 재현성 위기에 대한 실질적이고 효과적인 해결책을 제시한다. 특히 API 불안정성과 평가 시스템의 약점을 동시에 해결한 점이 가치 있으나, LLM 기반 시뮬레이터의 신뢰성 검증과 장기 안정성 보장 측면에서 보완이 필요하다.

같이 보면 좋은 논문

기반 연구
도구 학습 벤치마크에서 필요한 외부 정보 검색 및 통합 기술의 이론적 기반을 제공한다.
기반 연구
현실적 과학 워크플로우 평가에 필요한 안정적인 도구 학습 벤치마크 기반을 제공한다.
기반 연구
수백 개 과학 도구를 안정적으로 평가하기 위한 벤치마크 시스템의 기반 기술을 제공한다.
다른 접근
현실적 과학 워크플로우에서 멀티모달 에이전트 평가와 대규모 도구 학습 평가라는 상호 보완적 벤치마크를 제시한다.
후속 연구
도구 벤치마킹의 안정성 원리를 대규모 API 활용 시스템의 성능 평가에 적용하여 더 신뢰할 수 있는 평가 체계를 구축할 수 있습니다.
응용 사례
안정적 벤치마크에서 RAG 기술을 활용한 도구 선택 및 활용 능력을 평가할 수 있다.
응용 사례
과학 도구 에이전트의 성능을 안정적으로 평가할 수 있는 벤치마크 환경을 제공한다.
← 목록으로 돌아가기