Toward reliable biomedical hypothesis generation: Evaluating truthfulness and hallucination in large language models

저자: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang (University of Virginia) | 날짜: 2025 | DOI: 10.24963/ijcai.2025/873


Essence

Figure 1

TruthHypo 벤치마크 개요: 데이터셋 구성, 작업 수식화, 진실성 평가를 포함

대규모 언어 모델(LLM)의 생의학 가설 생성 능력을 평가하기 위해 TruthHypo 벤치마크와 KnowHD 할루시네이션 탐지 프레임워크를 제안했으며, LLM이 진실한 가설 생성에서 상당한 어려움을 겪음을 입증하고 지식 기반 접지(groundedness) 점수를 통한 검증 방법을 제시했다.

Motivation

Achievement

Figure 2

KnowHD 할루시네이션 탐지 프레임워크 개요

Figure 3

접지도(groundedness) 수준에 따른 평균 정확도. 가설들이 접지도 점수별로 그룹화됨

  1. 벤치마크 구축: PubTator 3.0 기반 3가지 관계 유형(Chemical & Gene, Disease & Gene, Gene & Gene)에 대해 총 2,024개 인스턴스의 TruthHypo 벤치마크 개발. 시간 기반 분할로 미래 과학 발견 시뮬레이션 구현.
  2. 할루시네이션 탐지 프레임워크: 가설과 추론 체인을 원자적 주장(atomic claims)으로 분해하여 접지도를 평가하는 KnowHD 프레임워크 제안. 이 점수가 진실한 가설 필터링의 효과적 지표임을 입증.
  3. 성능 분석: LLM이 진실한 가설 생성에서 상당한 어려움을 겪음을 밝혔으며, KnowHD의 접지도 점수와 가설의 진실성 간의 강한 연관성 입증.
  4. 휴먼 평가 검증: 개방형 가설 생성 작업에서 KnowHD의 과학적 타당성 있는 가설 식별 효용성을 휴먼 평가로 확인.

How

Figure 4

GPT-4o-mini를 사용한 KnowHD의 정확도 개선. 접지도에 따른 필터링 효과 시각화

TruthHypo 벤치마크:

지식 증강 설정:

KnowHD 할루시네이션 탐지:

평가 지표:

Originality

Limitation & Further Study

한계:

후속 연구:

Evaluation

총평: 본 논문은 LLM 기반 과학 가설 생성의 신뢰성 평가라는 중요한 문제를 체계적으로 다루었으며, 실용적 벤치마크와 할루시네이션 탐지 프레임워크를 제시한 고가치 연구이다. 다만 평가 범위 확대와 KnowHD의 자동화 정도 개선이 향후 과제이다.

같이 보면 좋은 논문

기반 연구
대규모 언어모델을 이용한 가설 생성 연구가 생의학 가설의 진실성 평가를 위한 기초적 방법론을 제공한다.
다른 접근
둘 다 과학 가설의 신뢰성을 다루지만 생의학 할루시네이션 탐지와 화학 실험 피드백이라는 다른 검증 방식을 사용한다.
다른 접근
과학 가설 검증에서 시뮬레이션 실험 피드백과 생의학 할루시네이션 탐지라는 서로 다른 검증 방식을 제시한다.
후속 연구
LLM의 제로샷 가설 제안 능력을 생의학 분야에서 진실성과 근거성 측면으로 확장 평가했다.
후속 연구
생의학 분야 가설 생성 신뢰성 평가로 통합적 가설 생성을 확장한다.
후속 연구
생물의학 가설 생성의 신뢰성 평가가 POPPER의 가설 검증 프레임워크를 구체적 도메인에 적용한다.
← 목록으로 돌아가기