From large language models to multimodal AI: A scoping review on the potential of generative AI in medicine

저자: Lukas Buess, Matthias Keicher, Nassir Navab, Andreas Maier, Soroosh Tayebi Arasteh | 날짜: 2025 | DOI: arXiv:2502.09242


Essence

Figure 1

의료 분야의 멀티모달 AI 파이프라인: (A) 다양한 의료 데이터 양식 수집 및 처리, (B) AI 모델에 의한 통합 표현 변환, (C) 리포트 생성, 대화 지원, 치료 계획 등의 인사이트 생성, (D) 피드백을 통한 반복적 최적화

본 논문은 의료 분야에서 생성형 AI의 진화를 체계적으로 검토한 스코핑 리뷰로, 텍스트 기반 대규모 언어모델(LLM)에서 의료 영상, 임상 데이터를 통합하는 멀티모달 AI 시스템으로의 전환을 추적하며, PRISMA-ScR 가이드라인을 따라 2020-2024년 발표된 144개 논문을 분석했다.

Motivation

Achievement

Figure 2

PRISMA 플로우 다이어그램: 데이터베이스 4,384개 레코드에서 60개, 수동 검색 83개를 포함하여 총 144개 논문 선정

  1. 텍스트 기반 LLM의 의료 응용 체계화: BioBERT, BioMistral 등 의료 특화 모델들이 supervised finetuning(SFT), prompt engineering, RLHF(강화학습) 등 다양한 기법으로 임상 문서화, 의료 문헌 요약, 진단 지원에 활용되고 있음을 분류
  2. 멀티모달 AI로의 패러다임 전환 확인: 단순 텍스트 처리에서 의료 영상, 임상 노트, 구조화된 데이터를 단일 모델 내 통합하는 멀티모달 대규모 언어모델(MLLM)로의 전환이 진단 지원, 의료 리포트 생성, 약물 발견, 대화형 AI 혁신을 주도
  3. 평가 방법론의 gap 규명: 어휘 기반 지표(BLEU, ROUGE), 임상 특화 지표, 모델 신뢰성·임상 관련성·일반화 가능성 평가의 불일치 확인

How

Figure 3

멀티모달 아키텍처: (A) CLIP 기반 모델 - 임베딩 정렬 (B) 크로스 어텐션 (C) 융합 기법

Figure 4

의료 분야의 생성형 AI 평가: 어휘 기반 지표(BLEU, ROUGE), 임상 특화 지표, 자동 평가 vs. 인간 평가

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 의료 분야의 생성형 AI 진화를 최신 발표까지 포함하여 체계적으로 정리한 필수 참고 리뷰이며, 특히 멀티모달 통합과 평가 방법론의 gap을 명확히 규명함으로써 향후 연구자와 개발자에게 실질적 방향을 제시한다.

← 목록으로 돌아가기