Toward Reliable Scientific Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

저자: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari | 날짜: 2025 | DOI: 10.24963/ijcai.2025/873


Essence

Figure 1

TruthHypo 벤치마크의 개요: 데이터셋 구성, 작업 공식화, 진실성 평가

본 논문은 과학 가설 생성에서 대규모 언어모델(LLM)의 진실성을 평가하기 위한 TruthHypo 벤치마크와 환각(hallucination) 탐지를 위한 KnowHD 프레임워크를 제시한다. LLM이 그럴듯해 보이지만 과학적으로 부정확한 가설을 생성하는 문제를 체계적으로 연구하기 위한 포괄적 접근법을 제공한다.

Motivation

Achievement

Figure 2

KnowHD 환각 탐지 프레임워크 개요

  1. TruthHypo 벤치마크: PubTator 3.0의 생의학 지식 그래프를 기반으로 3가지 관계 유형(Chemical & Gene, Disease & Gene, Gene & Gene)에 대해 2024년 이전/이후 데이터로 시간적 분할을 수행한 1,209~547개 인스턴스의 평가 데이터셋 구축. 실제 과학 발견의 시간 진행을 모의(simulate)함.
  2. KnowHD 프레임워크: 가설과 추론 사슬을 원자적 주장(atomic claims)으로 분해하여 기존 지식과의 부합도를 세밀하게 평가. groundedness 점수가 진실한 가설을 필터링하는 효과적인 메트릭임을 입증.
  3. LLM의 한계 실증: 현존 LLM들이 진실한 가설 생성에 상당한 어려움을 겪음을 광범위한 실험으로 입증. 환각과 진실성 간의 연관성 분석으로 이론적 기초 제공.
  4. 인간 평가 검증: 개방형 가설 생성 과제에서 KnowHD의 과학적 타당성 판별 능력과 과학 발견 가속화 효용을 인간 평가자가 확인.

How

Figure 3

groundedness 수준에 따른 평균 정확도. 가설이 groundedness 점수별로 그룹화됨

데이터셋 구성:

과제 공식화:

평가 지표:

KnowHD 프레임워크:

Originality

Limitation & Further Study

Evaluation

총평: 이 논문은 LLM 기반 과학 발견의 신뢰성 문제를 처음 체계적으로 다루며, TruthHypo와 KnowHD라는 실용적 도구를 제공함으로써 과학 혁신에 실질적으로 기여할 수 있는 중요한 작업이다. 다만 생의학 영역 국한과 자동 평가의 견고성 강화가 향후 과제이다.

같이 보면 좋은 논문

기반 연구
과학적 주장 검증을 위한 증거 검색 방법론이 가설 생성 진실성 평가에 필수적인 기술적 토대
기반 연구
과학적 가설 생성의 진실성 평가 방법론이 AstroAgents의 생명 기원 가설 검증에 필수적
다른 접근
신뢰할 수 있는 과학적 가설 생성에 대한 평가 중심 접근이 본 논문의 방법론 중심 관점과 상호 보완적 시각을 제공한다.
후속 연구
과학 출판물 오류 표현을 가설 생성에서의 환각 문제로 확장하여 더 포괄적인 과학적 신뢰성 연구
후속 연구
가설 생성 벤치마킹을 진실성 평가로 확장하여 더 신뢰할 수 있는 과학적 가설 생성 시스템 구축
← 목록으로 돌아가기