Scienceboard: Evaluating multimodal autonomous agents in realistic scientific workflows

Essence

AlphaFold를 통한 단백질 구조 예측과 Celestia에서 행성 궤도 표시 등 실제 과학 소프트웨어와 상호작용하는 에이전트

본 논문은 현실적인 과학 워크플로우에서 멀티모달 자율 에이전트를 평가하기 위한 SCIENCEBOARD 환경과 벤치마크를 제시한다. 생화학, 천문학, 지정보학 등 6개 과학 도메인에서 169개의 고품질 작업을 통해 최신 LLM/VLM 기반 에이전트들이 15% 이하의 성공률을 보이며, 현재 기술의 한계를 명시적으로 드러낸다.

Motivation

Known: 최근 컴퓨터-사용 에이전트(computer-using agents)들은 GUI/CLI를 통해 운영체제와 상호작용할 수 있으며, GPT-4o와 Claude 같은 VLM들이 이를 구동하고 있다. 과학 소프트웨어 도구들(AlphaFold, ChimeraX, Celestia 등)은 복잡한 과학 작업 자동화의 가능성을 보여준다.
Gap: 기존 컴퓨터-사용 에이전트 평가는 주로 정적인 QA, 코딩, 또는 단일 단계 작업에 초점을 맞추고 있다. 현실의 복잡한 과학 워크플로우에서 에이전트의 성능을 체계적으로 평가할 수 있는 환경과 벤치마크가 부재하다. 과학 소프트웨어는 입출력 형식이 복잡하고 도메인 특화 지식이 필요해 평가 신뢰성 확보가 어렵다.
Why: AI 코-사이언티스트(AI co-scientist)로서의 에이전트는 과학자들의 반복적 작업 자동화와 신속한 데이터 분석을 가능하게 하여 과학 발전을 가속화할 수 있다. 그러나 이를 실현하기 전에 현재 기술 수준의 정확한 평가와 개선 방향 파악이 필수적이다.
Approach: (1) 실제 과학 소프트웨어가 통합된 동적이고 시각적으로 풍부한 VM 기반 환경 구축, (2) 도메인 전문가가 설계한 169개의 고품질 현실 작업 벤치마크 개발, (3) GPT-4o, Claude 3.7, UI-TARS 등 최신 에이전트의 상세 평가 및 분석.

Achievement

SCIENCEBOARD의 인프라 구조: VM 기반 환경, 과학 소프트웨어, GUI/CLI 인터페이스, 평가 파이프라인

종합 평가 환경 구축:
- 6개 도메인(대수, 생화학, 정리 증명, GIS, 천문학, 과학 문서)에 걸친 실제 과학 소프트웨어 통합
- GUI와 CLI 이중 모드 상호작용 지원
- 텍스트 전용, 시각 전용, 결합 관찰(observation) 설정 지원
- 접근성 트리(a11ytree) 기반 구조화된 텍스트 표현 제공
고품질 벤치마크 개발:
- 도메인 전문가에 의해 수작업으로 설계된 169개 작업
- 과학자의 일상적 루틴을 시뮬레이션
- 시각적 추론, 도구 조작, 코딩, 수학, 공간 이해, 도메인 특화 지식 등 다양한 능력 요구
신뢰성 있는 평가 메커니즘:
- 과학 소프트웨어 I/O 형식의 복잡성 대응을 위한 재구성
- VM 내부 상태 검색 기반 실행 평가(execution-based evaluation)
- 각 도메인별 커스터마이즈된 평가 함수 설계
상세한 성능 분석:
- 최신 LLM/VLM 에이전트들의 평균 성공률 0-15% 달성
- 최적 부분 카테고리에서도 20% 성공률에 그침
- 에이전트의 한계점 및 개선 방향에 대한 심층 분석 제시

How

작업 주석 파이프라인: 도메인 전문가에 의한 설계 및 검증 프로세스

환경 설계 (Environment Design)

POMDP 모델링: 목표(goal), 상태 공간(state space S), 행동 공간(action space A), 관찰 공간(observation space O), 상태 전이 함수(T)로 형식화
통합 행동 공간:
- GUI 행동: 마우스 이동, 클릭, 키입력 (e.g., CLICK[991, 019])
- CLI 행동: 시스템 명령 및 애플리케이션별 스크립팅
- 메타 행동: answer(QA용), call_api(외부 API 활용)

관찰 및 메모리

텍스트 기반: 접근성 트리 활용한 UI 요소의 구조화된 표현
시각 기반: 고해상도 스크린샷 직접 캡처
메모리: 최근 관찰-행동 시퀀스 연결을 통한 컨텍스트 유지

소프트웨어 통합 및 적응

오픈소스 과학 소프트웨어 선정 및 VM 환경 재구성
복잡한 I/O 형식에 대응하기 위한 자동화 메커니즘 개발
초기화 스크립트, 구성 파일, 관련 리소스 제공

평가 파이프라인

초기화: 각 작업별 환경 설정 및 리소스 준비
상호작용: 에이전트가 VLM 정책을 통해 행동 생성 및 실행
평가: VM 내부 상태 모니터링을 통한 작업 완료 여부 판정

정책 모델

텍스트 관찰: LLM(예: GPT-4) 활용
시각 관찰 포함: VLM(예: GPT-4o, Claude 3.7) 활용
메모리와 현재 관찰 기반 다음 행동 예측

Originality

첫 번째 과학 워크플로우 평가 환경: 기존 연구들은 데스크톱, 모바일, 엔지니어링 작업에 초점을 맞춰왔으나, 본 논문은 실제 과학 발견 활동을 위한 환경과 벤치마크를 처음으로 제시
실제 과학 소프트웨어 통합: ChimeraX(단백질 구조 예측), Celestia(천문 시뮬레이션), GRASS GIS(지정보 분석) 등 전문 과학 소프트웨어를 직접 환경에 통합하여 높은 현실성 확보
도메인 전문가 기반 작업 설계: 분야 배경을 가진 주석자들이 설계한 고품질 작업으로, 단순한 자동화를 넘어 진정한 과학적 의사결정 능력 평가
다중 모달 상호작용: GUI, CLI, API 호출을 통합한 통합 행동 공간으로 과학 소프트웨어의 다양한 사용 패턴 반영
신뢰성 높은 평가 메커니즘: 접근성 트리, 스크린샷, VM 내부 상태 검색을 조합하여 복잡한 과학 소프트웨어의 작업 완료 여부를 정확히 판정
체계적인 성능 분석: 관찰 유형(텍스트/시각), 도메인, 작업 복잡도 등 다양한 차원에서 현재 에이전트의 한계와 개선 방향 제시