저자: Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun | 날짜: 2023-10-03 | DOI: 10.48550/arXiv.2307.16789
오픈소스 LLM들의 API 활용 능력을 대폭 향상시키기 위해 16,464개의 실제 REST API를 포함한 대규모 도구 사용 지시튜닝 데이터셋(ToolBench)과 깊이 우선 탐색 기반 의사결정 트리(DFSDT) 알고리즘을 제시하며, ChatGPT와 비슷한 성능의 ToolLLaMA를 개발했다.
다양한 모델의 도구 사용 평가 결과: Pass Rate와 Win Rate (ChatGPT-ReACT 대비)
ToolBench 구축의 세 단계와 API 리트리버 및 ToolLLaMA 학습 파이프라인
총평: ToolLLM은 오픈소스 LLM의 대규모 실제 API 활용 능력을 체계적으로 확보한 중요한 연구로, 포괄적인 데이터셋, 강화된 추론 알고리즘, 자동 평가 프레임워크를 통해 도구 학습 분야에 실질적 기여를 제시한다. ChatGPT 수준의 성능 달성과 강력한 일반화 능력은 실무 적용 가능성을 높이나, 데이터 구축의 ChatGPT 의존도와 이론적 분석 깊이에서는 개선 여지가 있다.