저자: Li, Yifei, Moussa, Hanane Nour, Chen, Ziru, Chen, Shijie, Yu, Botao et al. (The Ohio State University, Cisco Research, University of Wisconsin–Madison) | 날짜: 2025 | DOI: arXiv:2506.08140
AutoSDT-Coder-32B가 ScienceAgentBench에서 GPT-4o와 동등한 성능(7.8% SR) 달성
LLM의 코딩 능력을 활용하여 자동으로 고품질 데이터 주도형 발견(data-driven discovery) 태스크 5,404개를 수집한 AutoSDT 파이프라인을 제시하고, 이를 통해 구축한 데이터셋으로 미세조정한 모델이 기존 오픈 가중치 모델 대비 대폭 성능 향상을 달성했다.
AutoSDT 파이프라인: Search→Select→Adapt 3단계 구성
AutoSDT-5K의 다단계 태스크 분포 및 학문 분야별 구성
AutoSDT-Search (소스 탐색)
AutoSDT-Select (프로그램 선택)
AutoSDT-Adapt (프로그램 적응 및 지시문 생성)
총평: AutoSDT는 LLM 자동화로 고품질 과학 태스크 데이터의 수집 병목을 혁신적으로 해결하고, 구축한 데이터셋으로 오픈 가중치 모델이 폐쇄형 모델 수준 성능 도달을 실증함으로써 개방적 AI 과학자 시대의 물적 토대를 마련한 의미 있는 연구이다.