저자: Zifeng Wang, Benjamin P. Danek, Jimeng Sun | 날짜: 2025 | DOI: arXiv:2505.16100
BIODSA-1K의 벤치마크 통계: 329개 논문에서 추출된 다양한 생의학 연구 유형과 데이터 분석 과제들, 데이터 테이블의 행과 열의 범위를 보여주는 버블 플롯
본 논문은 생의학 연구에서 AI 에이전트의 가설 검증 능력을 평가하기 위해 1,029개의 가설 중심 과제와 1,177개의 분석 계획으로 구성된 BIODSA-1K 벤치마크를 제시한다. 329개 출판 논문에서 추출된 이 벤치마크는 실제 연구 워크플로우를 반영하며, 검증 불가능한 가설 사례를 포함하여 현실적인 데이터 과학 시나리오를 평가한다.
BIODSA-1K의 전체 개요: (a) 벤치마크 큐레이션 - 논문의 가설과 근거 추출, (b) 실험 - AI 에이전트의 계획-프로그램-분석-관찰-의사결정 사이클, (c) 평가 지표 - 가설 결정 정확도, 근거 정렬 점수, 검증 불가능 가설 감지(정밀도/재현율), 코드 실행 가능성
총평: BIODSA-1K는 기존 생의학 AI 벤치마크의 규모, 복잡성, 현실성을 획기적으로 확대하며, 특히 검증 불가능 가설 포함과 근거-결론 정렬 평가는 AI 신뢰성 평가의 새로운 기준을 제시한다. 다만 자동 추출 과정의 오류 관리와 도메인 특화 기술 평가 보완이 필요하다.