AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists

저자: Li, Yifei, Moussa, Hanane Nour, Chen, Ziru, Chen, Shijie, Yu, Botao et al. (The Ohio State University, Cisco Research, University of Wisconsin–Madison) | 날짜: 2025 | DOI: arXiv:2506.08140


Essence

Figure 1

AutoSDT-Coder-32B가 ScienceAgentBench에서 GPT-4o와 동등한 성능(7.8% SR) 달성

LLM의 코딩 능력을 활용하여 자동으로 고품질 데이터 주도형 발견(data-driven discovery) 태스크 5,404개를 수집한 AutoSDT 파이프라인을 제시하고, 이를 통해 구축한 데이터셋으로 미세조정한 모델이 기존 오픈 가중치 모델 대비 대폭 성능 향상을 달성했다.

Motivation

Achievement

Figure 2

AutoSDT 파이프라인: Search→Select→Adapt 3단계 구성

  1. AutoSDT-5K 데이터셋 구축: 5,404개의 데이터 주도형 발견 태스크 자동 수집, 4개 학문 분야(생물정보학, 전산화학, 지리정보과학, 심리학/인지신경과학)와 756개의 고유 Python 패키지 포함, 태스크당 평균 $0.55 비용
  2. 높은 품질 검증: 도메인 전문가 9명(박사과정생 및 교수)이 256개 태스크 평가 결과 — 93%의 과학적 진정성(ecological validity) 확인, 92.2%의 생성 코드 정확성 달성
  3. 현저한 성능 향상:
    • ScienceAgentBench: AutoSDT-Coder-32B가 GPT-4o(2024-05-13)와 동등한 7.8% SR 달성 (기본 모델 3.9% 대비 2배)
    • DiscoveryBench: 가설 매칭 점수 6.9→8.1로 17.4% 상대 개선, GPT-4o와의 격차 축소

How

Figure 3

AutoSDT-5K의 다단계 태스크 분포 및 학문 분야별 구성

AutoSDT-Search (소스 탐색)

AutoSDT-Select (프로그램 선택)

AutoSDT-Adapt (프로그램 적응 및 지시문 생성)

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

총평: AutoSDT는 LLM 자동화로 고품질 과학 태스크 데이터의 수집 병목을 혁신적으로 해결하고, 구축한 데이터셋으로 오픈 가중치 모델이 폐쇄형 모델 수준 성능 도달을 실증함으로써 개방적 AI 과학자 시대의 물적 토대를 마련한 의미 있는 연구이다.

← 목록으로 돌아가기