SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

저자: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang | 날짜: 2026-02-13 | DOI: 10.48550/arXiv.2602.12984


Essence

Figure 1

Figure 1: 다중 단계 과학적 도구 사용의 벤치마킹. LLM 에이전트가 환경과 상호작용하여 복잡한 화학 작업을 해결하는 대표적인 궤적

과학적 추론의 복잡성을 다단계 도구 활용으로 평가하기 위해, 본 논문은 4개 과학 분야에 걸쳐 1,780개의 도메인 특화 도구를 통합한 인터랙티브 환경 SciAgentGym과 이를 평가하는 SciAgentBench를 제시합니다. 나아가 도구 간 논리적 의존성을 학습하기 위해 SciForge 데이터 합성 방법을 제안하여, 8B 모델이 235B 이상 규모 모델을 능가하는 성과를 달성합니다.

Motivation

Achievement

Figure 2

Figure 2: SciAgentGym 개요. 좌측은 다학제 멀티모달 작업을 처리하는 통합 환경(도구, 파일시스템, 데이터베이스, 인터프리터)을, 우측은 벤치마킹, 에이전트 인터페이스, 학습 방법을 나타냄

  1. SciAgentGym 환경: 1,780개 도메인 특화 도구, 안정적 실행 인프라(파일시스템, 데이터베이스, Python 인터프리터)를 갖춘 확장 가능한 인터랙티브 환경 구축
    • 4개 과학 분야, 26개 세부 분야 커버
    • 타입 안전성(Type Safety), 재현성(Reproducibility), 확장성(Extensibility) 설계 원칙 준수
  2. SciAgentBench 벤치마크: 259개 작업, 1,134개 부분 질문으로 구성된 3단계 평가 세트
    • L1(기초): 507 평균 길이
    • L2(중간): 991 평균 길이
    • L3(고난도): 1,064 평균 길이
    • GPT-5 기준: 전체 41.3%, 상호작용 증가시 60.6% → 30.9%로 급격한 성능 저하
  3. SciForge 및 SciAgent 모델: 도구 의존성 그래프 기반 학습 데이터 합성 방법
    • SciAgent-8B: Qwen3-VL-235B-Instruct 대비 +6.7% 성능 향상
    • SciAgent-4B: +5.5% 성능 향상
    • 도메인 간 양의 전이 학습(positive cross-domain transfer) 확인

How

Figure 3

Figure 3: t-SNE 시각화로 표현된 도구 임베딩의 의미적 다양성

환경 설계

평가 방법론

SciForge 데이터 합성

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 과학 AI 에이전트의 다단계 도구 사용 능력을 평가하는 최초의 포괄적 벤치마크를 제시하며, 도구 의존성 기반 학습을 통해 모델 효율성과 성능의 새로운 패러다임을 제시합니다. 규모와 실용성에서 탁월하지만, 기술적 세부사항의 완전성과 명확한 기여의 경계 구분에서는 개선의 여지가 있습니다.

같이 보면 좋은 논문

다른 접근
연구 지원 능력 평가와 다단계 과학 도구 사용 평가가 AI의 과학적 역량을 서로 다른 관점에서 측정한다.
다른 접근
과학적 도구 사용 평가에서 다단계 상호작용과 엄밀한 개별 작업 평가의 서로 다른 접근법이다.
다른 접근
언어 에이전트 평가에서 엄밀한 개별 작업 평가와 다단계 도구 활용의 서로 다른 접근법이다.
후속 연구
과학 연구를 위한 LLM 조사가 SciAgentGym의 과학적 추론 평가를 이론적으로 확장한다.
후속 연구
다중 단계 과학 도구 사용 평가를 현실적 과학 워크플로우에서 멀티모달 평가로 확장한다.
← 목록으로 돌아가기