저자: Khachik Smbatyan, Tsolak Ghukasyan, Tigran Aghajanyan, Hovhannes Dabaghyan, Sergey Adamyan, Aram Bughdaryan, Vahagn Altunyan, Gagik Navasardyan, Aram Davtyan, Anush Hakobyan, A. Gharibyan, Arman Fahradyan, A. Hakobyan, Hasmik Mnatsakanyan, Narek Ginoyan, Garik Petrosyan | 날짜: 2025 | DOI: N/A
본 논문은 대규모 언어모델(LLM) 기반 자율 AI 에이전트가 신약 발견(drug discovery) 파이프라인을 독립적으로 설계하고 구현할 수 있는지 평가하기 위한 DO Challenge 벤치마크를 제시하고, 이에 기반한 멀티-에이전트 시스템 Deep Thought의 성능을 분석한 연구이다.
총평: 본 논문은 신약 발견 맥락에서 AI 에이전트의 통합적 능력을 평가하는 신규 벤치마크를 제시하고, 멀티-에이전트 시스템의 경쟁력 있는 성능을 입증했다는 점에서 의미 있으나, 시간 무제약 조건에서의 인간 전문가와의 큰 격차와 높은 불안정성은 현재 AI 에이전트가 실제 신약 발견 자동화에는 아직 부족함을 시사한다.