Scienceboard: Evaluating multimodal autonomous agents in realistic scientific workflows

저자: Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu 외 다수 | 날짜: 2025 | DOI: arXiv:2505.19897v2


Essence

Figure 1

AlphaFold를 통한 단백질 구조 예측과 Celestia에서 행성 궤도 표시 등 실제 과학 소프트웨어와 상호작용하는 에이전트

본 논문은 현실적인 과학 워크플로우에서 멀티모달 자율 에이전트를 평가하기 위한 SCIENCEBOARD 환경과 벤치마크를 제시한다. 생화학, 천문학, 지정보학 등 6개 과학 도메인에서 169개의 고품질 작업을 통해 최신 LLM/VLM 기반 에이전트들이 15% 이하의 성공률을 보이며, 현재 기술의 한계를 명시적으로 드러낸다.

Motivation

Achievement

Figure 2

SCIENCEBOARD의 인프라 구조: VM 기반 환경, 과학 소프트웨어, GUI/CLI 인터페이스, 평가 파이프라인

  1. 종합 평가 환경 구축:
    • 6개 도메인(대수, 생화학, 정리 증명, GIS, 천문학, 과학 문서)에 걸친 실제 과학 소프트웨어 통합
    • GUI와 CLI 이중 모드 상호작용 지원
    • 텍스트 전용, 시각 전용, 결합 관찰(observation) 설정 지원
    • 접근성 트리(a11ytree) 기반 구조화된 텍스트 표현 제공
  2. 고품질 벤치마크 개발:
    • 도메인 전문가에 의해 수작업으로 설계된 169개 작업
    • 과학자의 일상적 루틴을 시뮬레이션
    • 시각적 추론, 도구 조작, 코딩, 수학, 공간 이해, 도메인 특화 지식 등 다양한 능력 요구
  3. 신뢰성 있는 평가 메커니즘:
    • 과학 소프트웨어 I/O 형식의 복잡성 대응을 위한 재구성
    • VM 내부 상태 검색 기반 실행 평가(execution-based evaluation)
    • 각 도메인별 커스터마이즈된 평가 함수 설계
  4. 상세한 성능 분석:
    • 최신 LLM/VLM 에이전트들의 평균 성공률 0-15% 달성
    • 최적 부분 카테고리에서도 20% 성공률에 그침
    • 에이전트의 한계점 및 개선 방향에 대한 심층 분석 제시

How

Figure 3

작업 주석 파이프라인: 도메인 전문가에 의한 설계 및 검증 프로세스

환경 설계 (Environment Design)

관찰 및 메모리

소프트웨어 통합 및 적응

평가 파이프라인

정책 모델

Originality

Limitation & Further Study

한계

후속 연구

Evaluation

총평: SCIENCEBOARD는 컴퓨터-사용 에이전트를 현실적인 과학 워크플로우에서 평가하기 위한 획기적인 환경이자 벤치마크로, 현재 기술의 명확한 한계(15% 성공률)를 드러내면서 동시에 AI 기반 과학 자동화 연구의

같이 보면 좋은 논문

기반 연구
현실적 과학 워크플로우 평가에 필요한 안정적인 도구 학습 벤치마크 기반을 제공한다.
다른 접근
현실적 과학 워크플로우에서 멀티모달 에이전트 평가와 대규모 도구 학습 평가라는 상호 보완적 벤치마크를 제시한다.
후속 연구
다중 단계 과학 도구 사용 평가를 현실적 과학 워크플로우에서 멀티모달 평가로 확장한다.
반론/비판
OpenAI o1의 높은 성능과 대조적으로 현재 멀티모달 에이전트들의 과학 작업에서의 한계를 명확히 보여준다.
반론/비판
OpenAI o1의 인상적 성능과 대조적으로 과학 워크플로우에서 현재 AI 에이전트들의 한계를 명확히 보여준다.
← 목록으로 돌아가기