저자: Patrick Tser Jern Kon, Jiachen Liu, Xinyi Zhu, Qiuyi Ding, Jingjia Peng, Jiarong Xing, Yibo Huang, Yiming Qiu, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Matei Zaharia, Ang Chen | 날짜: 2025 | DOI: arXiv:2505.24785
EXP-Bench는 AI 에이전트가 동료 심사 논문에서 추출한 완전한 연구 실험을 수행할 수 있는지를 평가하는 벤치마크로, 연구 질문으로부터 가설 수립, 실험 설계, 구현, 실행, 결론 도출까지의 전체 과정을 평가한다.
AI가 완전한 종료-대-종료(end-to-end) 연구 실험을 수행할 수 있는 능력을 체계적으로 평가하기 위해 EXP-Bench 벤치마크를 제시하며, NeurIPS/ICLR 논문 461개 작업에서 현재 AI 에이전트들이 0.5%의 완전 실험 성공률에 그치고 있음을 보였다.
ICLR 2024 MogaNet 논문에서 추출한 단일 연구 작업의 예시로, 연구 질문, 고수준 방법 설명, 스타터 코드를 제공받는 형태를 보여준다.
EXP-Bench 데이터셋은 Deep Learning, Reinforcement Learning, Computer Vision, Generative Models 등 다양한 ML 연구 분야에서 균형잡힌 작업들로 구성되어 있으며, NeurIPS(53%)와 ICLR(47%)에서 추출되었다.
EXP-Bench 반자동화 데이터셋 구축 파이프라인의 3단계 프로세스
Dataset Specification:
반자동화 구축 파이프라인:
평가 메트릭:
총평: EXP-Bench는 AI 에이전트의 종료-대-종료 연구 실험 수행 능력을 처음으로 체계적으로 평가하는 중요한 벤치마크이며, 반자동화 파이프라인을 통해 대규모 고충실도 데이터셋을 구축한 점이 주목할 만하다. 다만 파이프라인의 자동화 정도와 다중 유효 해법 인정 메커니즘 개선이 향후 과제이다.