저자: Erpai Luo, Jinmeng Jia, Yifan Xiong, Xiangyu Li, Xiaobo Guo, Baoqi Yu, Minsheng Hao, Lei Wei, Xuegong Zhang | 날짜: 2025 | DOI: arXiv:2505.08341
BAISBench의 개요: (A) 두 가지 보완적 태스크 구성, (B) BAIS-DPTA의 구축 방식, (C) BAIS-SD의 구축 방식
단일세포 전사체(single-cell transcriptomics) 데이터를 활용하여 AI 과학자(AI scientist) 시스템의 생물학적 발견 능력을 평가하는 BAISBench 벤치마크를 제시한다. 현재 AI 과학자들은 완전한 자동화된 생물학적 발견에는 못 미치지만, 데이터 기반 생물학 연구 지원에 상당한 잠재력을 보이고 있음을 실증적으로 보여준다.
BAIS-DPTA 태스크에서 다양한 AI 모델의 세포형 주석 정확도: (A) 전체 결과, (B) 조직별 결과
BAIS-DPTA 태스크의 파이프라인: AI 과학자에게 단일세포 유전자 발현 데이터셋이 제공되고 전처리 및 주석을 수행
BAIS-SD 태스크의 파이프라인: 배경 정보와 대응하는 데이터셋이 제공되고 발표된 발견과 일치하는 결론을 찾도록 요구
총평: 이 논문은 단순한 지식 기반 평가를 넘어 실제 생물학 데이터 분석 능력을 평가하는 현실적이고 실용적인 벤치마크를 제시함으로써, 빠르게 발전하는 AI 과학자 분야에 타당성 있는 평가 기준을 마련했다. 계층적 평가 체계와 공개 자원은 학계에 즉각적인 기여를 할 수 있으나, 평가 범위의 다양화와 개방형 발견 능력 평가 추가를 통해 더욱 포괄적인 벤치마크로 발전할 여지가 있다.