저자: Iván López, Akshay Swaminathan, Karthik S. Vedula, Sanjana Narayanan, F. Nateghi Haredasht | 날짜: 2025 | DOI: 10.1038/s41746-024-01377-1
임상 노트에서 정보를 추출할 때 임상 엔티티(clinical entities)를 기반으로 관련 정보만 효율적으로 검색하여 대규모 언어모델(LLM)에 제공하는 CLEAR 파이프라인을 제안하며, 기존 embedding 기반 검색 대비 70% 이상의 토큰 사용량 감소와 추론 시간 단축을 달성하면서도 성능을 개선했다.
CLEAR 파이프라인의 개요: (1) 임상 노트와 (2) 쿼리를 입력받아 엔티티 기반 검색을 수행
Stanford MOUD 데이터셋에서 NER 제거 시 CLEAR 정보 검색의 F1 점수 변화: 일부 변수는 작은 감소, 일부는 큰 감소를 보임
총평: 이 논문은 임상 정보 추출에서 embedding 기반 검색의 비효율성을 명확히 인식하고 엔티티 기반의 실질적 대안을 제시하는 실용적이고 검증된 연구이다. 대규모 임상 데이터셋에서 일관되게 우수한 성능과 효율성을 입증했으나, 온톨로지 의존성과 도메인 특화성 측면에서는 추가 개선의 여지가 있다.