ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

저자: Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun | 날짜: 2023-10-03 | DOI: 10.48550/arXiv.2307.16789


Essence

오픈소스 LLM들의 API 활용 능력을 대폭 향상시키기 위해 16,464개의 실제 REST API를 포함한 대규모 도구 사용 지시튜닝 데이터셋(ToolBench)과 깊이 우선 탐색 기반 의사결정 트리(DFSDT) 알고리즘을 제시하며, ChatGPT와 비슷한 성능의 ToolLLaMA를 개발했다.

Motivation

Achievement

Figure 2

다양한 모델의 도구 사용 평가 결과: Pass Rate와 Win Rate (ChatGPT-ReACT 대비)

  1. 포괄적 데이터셋 구성: RapidAPI에서 49개 카테고리, 3,451개 도구(Tool), 16,464개 API로 이루어진 ToolBench 구축 (126,486개 지시문, 469,585개 실제 API 호출 포함)
  2. 우수한 모델 성능: ToolLLaMA는 Text-Davinci-003과 Claude-2를 능가하고 ChatGPT와 견줄 만한 성능 달성, GPT-4에만 약간 밀림
  3. 다중 도구 처리 능력: 단일 도구 및 복합 다중 도구 시나리오 모두 처리 가능
  4. 강력한 일반화: 훈련에 미포함된 APIBench 데이터셋에서 Gorilla와 동등한 성능 시연

How

Figure 1

ToolBench 구축의 세 단계와 API 리트리버 및 ToolLLaMA 학습 파이프라인

데이터 구축 프로세스

핵심 기술 요소

Originality

Limitation & Further Study

Evaluation

총평: ToolLLM은 오픈소스 LLM의 대규모 실제 API 활용 능력을 체계적으로 확보한 중요한 연구로, 포괄적인 데이터셋, 강화된 추론 알고리즘, 자동 평가 프레임워크를 통해 도구 학습 분야에 실질적 기여를 제시한다. ChatGPT 수준의 성능 달성과 강력한 일반화 능력은 실무 적용 가능성을 높이나, 데이터 구축의 ChatGPT 의존도와 이론적 분석 깊이에서는 개선 여지가 있다.

같이 보면 좋은 논문

기반 연구
대규모 도구 활용 LLM의 기본 방법론을 API 검색 및 활용에 특화하여 적용한 확장 연구로 볼 수 있습니다.
기반 연구
16000개 이상의 도구를 마스터하는 대규모 언어모델 연구가 ToolUniverse의 포괄적 도구 통합 기반을 제공한다.
다른 접근
자동 도구 학습과 대규모 도구 마스터링이 LLM의 외부 도구 활용 능력 향상을 위한 서로 다른 접근법이다.
← 목록으로 돌아가기