Can ai agents design and implement drug discovery pipelines? arXiv preprint arXiv:2504.19912, 2025.

Motivation

Known: 최근 AI 에이전트 시스템들(AlphaFold, 자동 소프트웨어 엔지니어링 등)은 복잡한 문제 해결에서 뛰어난 성능을 보이고 있으며, AI 기반 신약 발견 가속화의 가능성이 높아지고 있음
Gap: 기존 신약 발견 벤치마크들(TDC, DrugOOD, GuacaMol 등)은 대부분 고립된 예측 작업(isolated predictive tasks)에만 초점을 맞추고 있으며, AI 에이전트의 독립적 의사결정, 코드 개발, 자율 실행 능력을 평가하는 통합적이고 전문화된 벤치마크가 부족함
Why: 신약 발견의 실제 파이프라인은 문헌 검토, 화학 공간 탐색, 모델 선택, 자원 제약 하에서의 다목적 최적화 등 복합적인 전략적 의사결정을 요구함
Approach: (1) 가상 스크리닝(virtual screening)에 영감을 받은 통합형 벤치마크(DO Challenge) 개발, (2) 이를 기반으로 한 멀티-에이전트 시스템 구현, (3) 인간 전문가 및 경진대회 참가자와의 광범위한 비교 분석

DO Challenge 벤치마크 제시: 100만 개의 분자 구조로부터 DO Score가 가장 높은 상위 1,000개 분자 식별이라는 단일 통합 문제로서, 자원 제약(상위 10% 라벨링 가능, 3회 제출 제한) 하에서 AI 에이전트의 전략적 계획, 코드 작성/실행, 적응성 평가
Deep Thought 멀티-에이전트 시스템 개발 및 성능 검증:
- 시간 제약 조건(10시간): 상위 1,000개 분자와의 겹침률(overlap) 33.5% 달성 → 최고 인간 전문가(33.6%)와 거의 동등, 경진대회 최우수팀(16.4%)을 크게 상회
- 시간 무제약 조건: 33.5% → 인간 전문가 최고 성능(77.8%)에는 여전히 미치지 못함
- LLM 역할별 성능: Claude 3.7 Sonnet, Gemini 2.5 Pro, o3이 주요 에이전트로 우수, GPT-4o와 Gemini 2.0 Flash는 보조 역할에서 효과적
경진대회 기반 상세 비교 분석: DO Challenge 2025 참가 40개 팀 중 선발 20개 팀의 다양한 전략(능동 학습, 어텐션 기반 모델, 반복적 제출 등) 분석 및 인간 전문가 참조 솔루션과의 체계적 비교

벤치마크 설계:
- 100만 개 분자 데이터셋에 대해 사용자 정의 DO Score 레이블 생성
- 10% 라벨 획득 제약(100,000개), 3회 제출 제한으로 자원 제약 시뮬레이션
- 시간 제약(10시간) 및 무제약 두 가지 설정 제공
Deep Thought 아키텍처:
- 이질적(heterogeneous) LLM 기반 에이전트들의 협력 시스템
- 각 에이전트는 특정 역할(문헌 검토, 코드 작성, 결과 분석 등)을 담당하며 상호 통신
- 환경과의 상호작용을 위한 도구 활용(파일 작성, 코드 실행, 웹 브라우징)
평가 지표:
- 주요: 실제 상위 1,000개 분자와 에이전트 선택 분자의 겹침률(%)
- 부수: 런타임, LLM 토큰 사용량(Fig 3)

신규 벤치마크 개발: 기존의 고립된 작업 중심 벤치마크와 달리, 신약 발견의 실제 복잡성을 통합적으로 반영하는 최초의 벤치마크 제시(화학 공간 탐색, 다목적 최적화, 자원 제약, 모델 선택의 동시 평가)
멀티-에이전트 코디네이션: 이질적 LLM을 활용한 계층적 협력 구조로, 단순한 다중 LLM 호출을 넘어 역할 분담과 피드백 루프 설계
광범위한 비교 분석: AI 에이전트 vs. 인간 전문가 vs. 경진대회 참가자의 3원 비교를 통해 상대적 강점/약점의 체계적 규명
공개 리소스: 벤치마크(Zenodo) 및 소스코드(GitHub) 공개로 재현성 및 향후 연구 기반 제공

성능 격차: 시간 무제약 조건에서 인간 전문가(77.8%)와의 상당한 격차(43.3% 포인트) 존재 → AI 에이전트의 장기 전략 수립 및 적응적 학습 능력 한계 시사
높은 불안정성(instability): Deep Thought의 런타임 및 성능이 실행마다 변동하는 문제 지적 → 에이전트 의사결정 경로의 재현성 및 신뢰성 개선 필요
제한된 평가 시나리오: 단일 벤치마크 작업만으로 평가 → 다양한 신약 발견 시나리오(표적 식별, 분자 생성, 바이오 마커 예측 등)로의 확장성 미지수
후속 연구:
- 에이전트의 불안정성 원인 규명 및 개선 방안(프롬프트 최적화, 에이전트 아키텍처 개선)
- 인간-AI 협력 모델 개발 → 인간 전문성의 87.8%(33.6%/38.3%) 수준까지만 달성한 부분 보완
- 다양한 신약 발견 작업으로의 벤치마크 확대 및 통합 평가 프레임워크 개발