Can gpt-4v (ision) serve medical applications? case studies on gpt-4v for multimodal medical diagnosis

저자: Chaoyi Wu, Jiayu Lei, Qiaoyu Zheng, Weike Zhao, Weixiong Lin, Xiaoman Zhang, Xiao Zhou, Ziheng Zhao, Ya Zhang, Yanfeng Wang, Weidi Xie | 날짜: 2023 | DOI: arXiv:2310.09909


Essence

Figure 1

의료 시스템 17개와 영상 모달리티 8개를 포괄하는 평가 프레임워크

본 논문은 OpenAI의 GPT-4V(ision) 모델이 의료 영상 진단 작업에서 실제로 임상 적용 가능한지를 체계적으로 평가한 연구이다. 17개 신체 시스템과 8개 영상 모달리티를 포함한 광범위한 사례 연구를 통해 GPT-4V의 의료 진단 능력과 한계를 명확히 규명했다.

Motivation

Achievement

Figure 2

GPT-4V의 단일 뇌 MRI 영상 분석 사례

  1. 영상 모달리티 및 해부학적 구조 인식 우수: GPT-4V는 의료 영상의 촬영 방식(X-ray, CT, MRI 등)과 신체 부위를 정확하게 식별할 수 있으며, 이 분야에서는 상대적으로 높은 성능을 보임
  2. 질병 진단에서 심각한 한계: 정확한 질병 진단 능력이 현저히 부족하며, 특히 드문 질환이나 복잡한 임상 소견의 경우 오진 또는 관련 없는 답변을 생성함
  3. 보고서 생성 시 구조화된 형식은 가능하지만 내용 정확성 부족: 임상 리포트 형식을 적절히 작성하지만 실제 의료 정보의 정확성과 완전성이 부족함
  4. 다중 영상 분석의 어려움: 동일 모달리티의 여러 영상(다양한 각도의 뷰)이나 서로 다른 모달리티의 영상을 통합 분석하는 데 significant challenges를 보임
  5. 환자 병력에 대한 과도한 의존성: 환자의 의료 기록이 제공되면 답변이 크게 달라지며, 이는 모델이 영상 정보보다 텍스트 정보에 더 큰 가중치를 두는 경향을 시사함

How

Figure 3

해부학적 구조 및 이상 소견 위치 파악 평가 사례

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 급속히 발전하는 생성형 AI의 의료 적용 가능성에 대한 현실적이고 체계적인 평가를 제공함으로써 과도한 기대감을 조절하고 진정한 의료 AI의 발전 방향을 제시하는 중요한 기여를 한다. 특히 광범위한 의료 도메인 커버리지와 다양한 임상 작업 평가는 높이 평가되지만, 대규모 정량적 메트릭 부재와 평가 사례 수의 제한은 향후 개선이 필요한 부분이다.

같이 보면 좋은 논문

기반 연구
GPT-4V의 의료 응용 케이스 스터디가 병리학 특화 AI 개발의 기반이 된다
기반 연구
GPT-4V의 의료 영상 진단 능력 평가가 과학 전반의 멀티모달 추론 벤치마크 개발에 방법론적 기초를 제공함
다른 접근
의료 영상 진단에서 GPT-4V와 Med-Gemini의 서로 다른 멀티모달 접근법과 임상 적용 가능성을 비교 분석할 수 있음
다른 접근
의료 멀티모달 AI에서 Gemini 기반 Med-Gemini와 GPT-4V의 서로 다른 접근법과 성능을 비교 분석할 수 있음
후속 연구
GPT-4V의 의료 진단 능력을 대규모 언어모델의 리뷰 생성 능력과 결합하여 의료 문헌 분석으로 확장할 수 있음
후속 연구
GPT-4V의 의료 영상 진단 평가 연구를 과학 전반의 멀티모달 추론 능력으로 확장한 벤치마크임
← 목록으로 돌아가기