저자: Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu 외 다수 | 날짜: 2025 | DOI: arXiv:2505.19897v2
AlphaFold를 통한 단백질 구조 예측과 Celestia에서 행성 궤도 표시 등 실제 과학 소프트웨어와 상호작용하는 에이전트
본 논문은 현실적인 과학 워크플로우에서 멀티모달 자율 에이전트를 평가하기 위한 SCIENCEBOARD 환경과 벤치마크를 제시한다. 생화학, 천문학, 지정보학 등 6개 과학 도메인에서 169개의 고품질 작업을 통해 최신 LLM/VLM 기반 에이전트들이 15% 이하의 성공률을 보이며, 현재 기술의 한계를 명시적으로 드러낸다.
SCIENCEBOARD의 인프라 구조: VM 기반 환경, 과학 소프트웨어, GUI/CLI 인터페이스, 평가 파이프라인
작업 주석 파이프라인: 도메인 전문가에 의한 설계 및 검증 프로세스
총평: SCIENCEBOARD는 컴퓨터-사용 에이전트를 현실적인 과학 워크플로우에서 평가하기 위한 획기적인 환경이자 벤치마크로, 현재 기술의 명확한 한계(15% 성공률)를 드러내면서 동시에 AI 기반 과학 자동화 연구의