ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

저자: Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun | 날짜: 2025-03-31 | DOI: 10.48550/arXiv.2410.05080 | 출판처: ICLR 2025


Essence

본 논문은 대규모언어모델(LLM) 기반 언어에이전트(Language Agents)의 데이터 기반 과학 발견 수행능력을 엄밀하게 평가하기 위한 벤치마크 ScienceAgentBench를 제시한다. 최근 LLM이 과학 연구 자동화를 완전히 자동화할 수 있다는 주장들에 대해, 개별 과학적 작업 단위에서의 체계적 평가의 중요성을 강조하고 현재 에이전트의 실제 역량의 한계를 명확히 한다.

Motivation

Achievement

Figure 1

Figure 1: ScienceAgentBench의 세부 작업 분포(상) 및 생물정보학, 계산화학, 지리정보과학, 심리신경과학의 이질적 데이터 유형(하)

  1. 포괄적 벤치마크 구축: 4개 분야, 44개 논문, 102개 작업으로 구성된 과학적으로 검증된 벤치마크 개발. 각 작업은 피어리뷰 논문의 공개 코드/데이터에서 직접 추출되어 실제 과학 문제의 높은 대표성 확보.
  2. 엄격한 평가 체계 수립: 생성 프로그램, 실행 결과(렌더링된 그림, 테스트셋 예측), 계산비용을 모두 검토하는 다차원 평가 메트릭과 작업 특화 루브릭 제시. 주석자-전문가 다단계 검증으로 데이터 품질 보증.
  3. 현실적 성능 평가: 5개 LLM(오픈웨이트/독점)을 3개 프레임워크(직접 프롬프팅, OpenHands CodeAct, 자체 디버깅)로 평가한 결과, 최고 성능 에이전트가 3번의 시도로도 32.4%만 독립적 완수, 전문가 지식 제공 시 34.3% 달성. OpenAI o1은 42.2%이나 비용이 10배 이상 높음.
  4. 효율성-성능 트레이드오프 분석: Claude-3.5-Sonnet 자체 디버깅이 OpenHands CodeAct 대비 10.8% 더 높은 정확도를 17배 낮은 API 비용으로 달성함을 입증, 실무적 에이전트 설계에 대한 통찰 제공.

How

Figure 2

Figure 2: 계산화학 작업의 4개 구성요소: (a) 작업 지시사항, (b) 데이터셋 정보, (c) 전문가 제공 지식, (d) 주석된 참조 프로그램

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.3/5 Significance: 4.6/5 Clarity: 4.2/5 Overall: 4.4/5

총평: 본 논문은 LLM 기반 과학 에이전트의 성능을 엄밀하게 평가할 수 있는 고품질 벤치마크를 제시함으로써, 과장된 주장들에 대한 객관적 근거를 제공한다. 특히 피어리뷰 논문 기반 작업 추출과 분야별 전문가 검증을 통해 과학적 진정성을 확보한 점이 핵심 기여이며, 실제 과학자들의 생산성 향상을 목표로 한 현실적 문제 설정이 돋보인다. 다만 현재 에이전트의 32-42% 성능으로는 실무 활용에 아직 제약이 있으며, 이를 개선하기 위한 장기 연구 방향을 제시하는 데 논문의 가치가 있다.

같이 보면 좋은 논문

기반 연구
언어 에이전트의 과학적 작업 수행 능력을 체계적으로 평가하는 벤치마크 프레임워크
기반 연구
오믹스 데이터 기반 생물학 연구의 AI 과학자 벤치마킹이 ScienceAgentBench 설계에 영향을 준다.
다른 접근
언어 에이전트 평가에서 엄밀한 개별 작업 평가와 다단계 도구 활용의 서로 다른 접근법이다.
다른 접근
과학적 도구 사용 평가에서 다단계 상호작용과 엄밀한 개별 작업 평가의 서로 다른 접근법이다.
후속 연구
LLM의 과학 발견 능력 벤치마킹이 ScienceAgentBench의 평가 체계를 확장한다.
← 목록으로 돌아가기