Robust claim verification through fact detection

Essence

FactDetect 프레임워크 개요: 문구 매칭(Phrase Matching) → 질문 생성(Question Generation) → 짧은 사실 생성(Short Fact Generation)

본 논문은 증거(evidence)에서 추출한 간결한 사실(short facts)을 통해 주장 검증(claim verification)의 견고성과 추론 능력을 향상시키는 FactDetect 방법을 제안한다. 멀티태스크 학습과 LLM 기반 제로샷 프롬프팅에서 모두 적용 가능한 데이터 증강 전략이다.

Motivation

Known: 기존 주장 검증 연구는 질의응답(QA) 기반 추론, LLM 기반 프로그램 생성, 논리식 분해 등 다양한 접근을 시도했으나, 과학 논문의 복잡한 증거를 직접 처리하는 것이 어려움
Gap: 제한된 인간 주석 데이터와 과학 주장 검증의 높은 복잡도(수치 추론, 통계, 도메인 지식 필요)로 인해 기존 모델의 성능이 제한적
Why: 사람의 추론은 주장과 증거 사이의 의미있는 링크를 생성하고 그 위에서 추론하는데, 기계는 긴 과학적 증거에서 핵심 정보를 추출하기 어려움
Approach: LLM을 활용하여 증거를 더 짧고 명확한 사실로 단순화하고, 이를 멀티태스크 학습(중요도 탐지 + 주장 검증)의 보조 태스크로 활용하거나 LLM 프롬프팅에 증강

Achievement

과학적 주장에서 증거로부터 짧은 사실 생성의 3단계 프로세스

감독 학습 모델 성능: SciFact, HealthVer, SciFact-Open 데이터셋에서 F1 스코어 기준 15% 향상 달성
제로샷 LLM 성능: 멀티태스크 학습 기반 FactDetect(AugFactDetect)를 프롬프트에 증강하여 세 가지 과학 주장 검증 데이터셋에서 평균 17.3% 성능 향상 (기존 최고 성능 모델 대비 통계적으로 유의미)
설명 가능성: 자동 생성된 짧은 사실이 명시적인 근거 제시로 모델의 추론 과정을 보다 투명하게 함

How

FactDetect의 세 가지 핵심 단계

1단계: 문구 매칭 (Phrase Matching)
- LLM(Mistral-7B)을 사용하여 주장과 증거에서 의미적으로 유사한 문구 쌍 추출
- n-gram이나 개체명 같은 제한을 두지 않아 다양한 관련 문구 포함
2단계: 질문 생성 (Question Generation)
- 주장에서 추출한 문구를 답으로 하는 질문을 LLM으로 생성
- 증거의 답(a_e)은 미포함하여 주장 중심의 고품질 질문 생성 보장
3단계: 짧은 사실 생성 (Short Fact Generation)
- 생성된 질문과 증거에서의 대응 답변을 결합하여 완전한 문장으로 변환
- 생성된 사실을 "중요(important)" 또는 "중요하지 않음(not important)"으로 약약(weak labeling) 레이블링
멀티태스크 학습: 중요도 탐지와 주장 검증을 동시에 학습하는 보조 태스크로 활용
LLM 프롬프팅: 생성된 짧은 사실을 프롬프트에 증강하여 제로샷/퓨샷 성능 향상

Originality

새로운 데이터 증강 전략: 단순 문장 단순화를 넘어 주장-증거 간의 의미적 연결을 명시적으로 추출하는 자동화된 파이프라인 제시
멀티모달 접근: 동일한 생성된 사실을 감독 학습(멀티태스크)과 비감독 학습(LLM 프롬프팅) 두 가지 패러다임에 모두 적용 가능
약약 레이블링 활용: LLM이 생성한 사실의 중요도를 자동으로 판단하여 추가 인간 주석 없이 보조 신호 생성
과학 영역 특화: 일반적인 위키피디아 기반 데이터셋이 아닌 과학 주장 검증에 집중하여 고도의 전문성 필요

Limitation & Further Study

LLM 의존성: 전체 파이프라인이 Mistral-7B(또는 다른 LLM)의 질에 크게 의존하며, 생성 오류가 누적될 가능성
약약 레이블링의 정확도: 자동으로 생성된 "중요/중요하지 않음" 레이블의 신뢰도가 검증되지 않음 (인간 평가 부재)
계산 비용: 세 단계의 LLM 호출로 인한 높은 추론 비용과 지연시간이 실제 배포에서 병목이 될 수 있음
제한된 도메인 평가: 세 가지 과학 데이터셋만 평가되었으며, 다른 도메인(의료, 뉘앙스 주장 등)에서의 일반화 가능성 미확인
향후 연구:
- 약약 레이블의 품질 개선을 위한 인간 평가 및 라벨 노이즈 처리 연구
- 다양한 LLM 모델 간의 성능 차이 분석
- 추론 효율성 개선 (사실 생성 캐싱, 선택적 생성 등)
- 다국어 및 타 도메인 확장