저자: Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun | 날짜: 2025-03-31 | DOI: 10.48550/arXiv.2410.05080 | 출판처: ICLR 2025
본 논문은 대규모언어모델(LLM) 기반 언어에이전트(Language Agents)의 데이터 기반 과학 발견 수행능력을 엄밀하게 평가하기 위한 벤치마크 ScienceAgentBench를 제시한다. 최근 LLM이 과학 연구 자동화를 완전히 자동화할 수 있다는 주장들에 대해, 개별 과학적 작업 단위에서의 체계적 평가의 중요성을 강조하고 현재 에이전트의 실제 역량의 한계를 명확히 한다.
Figure 1: ScienceAgentBench의 세부 작업 분포(상) 및 생물정보학, 계산화학, 지리정보과학, 심리신경과학의 이질적 데이터 유형(하)
Figure 2: 계산화학 작업의 4개 구성요소: (a) 작업 지시사항, (b) 데이터셋 정보, (c) 전문가 제공 지식, (d) 주석된 참조 프로그램
총평: 본 논문은 LLM 기반 과학 에이전트의 성능을 엄밀하게 평가할 수 있는 고품질 벤치마크를 제시함으로써, 과장된 주장들에 대한 객관적 근거를 제공한다. 특히 피어리뷰 논문 기반 작업 추출과 분야별 전문가 검증을 통해 과학적 진정성을 확보한 점이 핵심 기여이며, 실제 과학자들의 생산성 향상을 목표로 한 현실적 문제 설정이 돋보인다. 다만 현재 에이전트의 32-42% 성능으로는 실무 활용에 아직 제약이 있으며, 이를 개선하기 위한 장기 연구 방향을 제시하는 데 논문의 가치가 있다.