저자: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang | 날짜: 2026-02-13 | DOI: 10.48550/arXiv.2602.12984
Figure 1: 다중 단계 과학적 도구 사용의 벤치마킹. LLM 에이전트가 환경과 상호작용하여 복잡한 화학 작업을 해결하는 대표적인 궤적
과학적 추론의 복잡성을 다단계 도구 활용으로 평가하기 위해, 본 논문은 4개 과학 분야에 걸쳐 1,780개의 도메인 특화 도구를 통합한 인터랙티브 환경 SciAgentGym과 이를 평가하는 SciAgentBench를 제시합니다. 나아가 도구 간 논리적 의존성을 학습하기 위해 SciForge 데이터 합성 방법을 제안하여, 8B 모델이 235B 이상 규모 모델을 능가하는 성과를 달성합니다.
Figure 2: SciAgentGym 개요. 좌측은 다학제 멀티모달 작업을 처리하는 통합 환경(도구, 파일시스템, 데이터베이스, 인터프리터)을, 우측은 벤치마킹, 에이전트 인터페이스, 학습 방법을 나타냄
Figure 3: t-SNE 시각화로 표현된 도구 임베딩의 의미적 다양성
총평: 본 논문은 과학 AI 에이전트의 다단계 도구 사용 능력을 평가하는 최초의 포괄적 벤치마크를 제시하며, 도구 의존성 기반 학습을 통해 모델 효율성과 성능의 새로운 패러다임을 제시합니다. 규모와 실용성에서 탁월하지만, 기술적 세부사항의 완전성과 명확한 기여의 경계 구분에서는 개선의 여지가 있습니다.