저자: Qiao Jin, Zhizheng Wang, Yifan Yang, Qingqing Zhu, Donald Wright | 날짜: 2024 | DOI: 10.48550/arXiv.2402.13225
그림 1. 연구 개요: (a) RiskCalcs 도구 모음 구축 프로세스, (b) 장기 시스템별 계산기 분포, (c) 도구의 의미적 표현 t-SNE 시각화, (d) 환자 노트에 RiskCalcs 적용 프로세스
본 논문은 대규모 언어모델(LLM)을 활용하여 PubMed 문헌으로부터 2,164개의 임상 계산기(RiskCalcs)를 자동으로 큐레이션하고, 이를 환자 기록에 적용하는 의료 언어 에이전트 AgentMD를 제시한다. 기존 수동 큐레이션의 확장성 문제를 극복하면서 80% 이상의 정확도를 달성하고, 기존 GPT-4 체인-오브-소트(Chain-of-Thought) 방식(40.9%)을 크게 능가한다(87.7%).
그림 3. RiskCalcs 도구의 품질 및 커버리지 분석: (a) 상위 50개 인용 계산기, (b) 무작위 샘플 50개 계산기의 평가 결과
그림 2. AgentMD의 도구 제작 및 사용 방법론: (a) 생성된 RiskCalcs 계산기 예시, (b) 도구 선택, 계산, 요약 단계 포함 상세 방법
총평: 본 논문은 대규모 언어모델을 활용한 임상 도구 자동 큐레이션의 선도적 시도로, 기술적 혁신성과 임상적 잠재력이 높다. 다만 품질 검증 범위 확대, 실제 임상 통합 효과 검증, LLM 의존성 완화 등이 실용화를 위한 과제이다.