Fact-checking complex claims with program-guided reasoning

저자: Liangming Pan, Xiaobao Wu, Xinyuan Lu, Anh Tuan Luu, William Yang Wang, Min‐Yen Kan, Preslav Nakov | 날짜: 2023 | DOI: arXiv:2305.12744


Essence

복잡한 주장(claim)의 사실 확인을 위해 대규모 언어 모델(LLM)의 인-컨텍스트 학습(in-context learning) 능력을 활용하여 추론 프로그램(reasoning program)을 생성하고, 이를 특화된 하위 태스크 함수들로 순차적으로 실행하는 프로그램 가이드 팩트 체킹(PROGRAMFC) 프레임워크를 제안한다. 이는 설명 가능성과 데이터 효율성을 동시에 만족하면서 복잡한 다단계 추론이 필요한 주장 검증에서 우수한 성능을 달성한다.

Motivation

Achievement

Figure 1: PROGRAMFC 모델 개요. 프로그램 생성 단계에서 Codex를 이용해 추론 프로그램을 생성하고, 프로그램 실행 단계에서 각 단계를 특화된 함수(QA 모델, Fact Checker, Logical Reasoner)에 위임
  1. 다중 데이터셋에서 우수한 성능 달성: HOVER와 FEVEROUS라는 복잡한 주장 검증 데이터셋에서 7개의 파우 샷(few-shot) 기준 모델들을 능가하며, 특히 추론 깊이(reasoning depth)가 증가할수록 프로그램 가이드 추론의 효과가 증가함을 입증.
  2. 설명 가능한 추론 과정: 생성된 프로그램 자체가 명확한 단계별 추론 경로를 제시하므로, 사용자가 모델의 의사결정 과정을 이해하고 디버깅할 수 있음.
  3. 유연하고 견고한 아키텍처: 하위 태스크 함수들을 쉽게 교체 가능하여 금 증거(gold evidence), 오픈북(open-book), 클로즈드북(closed-book) 등 다양한 팩트 체킹 환경에 대응 가능하며, 약한 모델을 하위 솔버로 사용해도 상대적으로 견고한 성능 유지.
  4. 근거 검색 향상: 오픈 도메인 설정에서 추론 프로그램이 관련 근거의 검색 성능(retrieval)을 개선하는 효과를 확인.

How

Figure 1: 프로그램 생성-실행 패러다임. S1-S4는 순차적 추론 단계를 나타내며, 각 단계는 특정 함수를 호출하고 결과를 변수에 저장

Originality

Limitation & Further Study

Evaluation

총평: PROGRAMFC는 설명 가능성과 데이터 효율성을 동시에 달성하면서 복잡한 주장의 사실 확인 성능을 현저히 개선하는 혁신적인 프레임워크로, 프로그래밍 패러다임의 창의적 적용과 LLM의 인-컨텍스트 학습 능력을 효과적으로 결합한 점에서 높이 평가된다. 다만, cascade 오류에 대한 강건성 강화와 함수 라이브러리의 확장이 향후 실무 적용의 핵심 과제이다.

같이 보면 좋은 논문

기반 연구
ReAct 추론-행동 프레임워크가 프로그램 가이드 팩트 체킹의 기반이다.
기반 연구
복잡한 주장의 팩트체킹을 위한 프로그램 기반 추론이 CIBER의 증거 검색 방법론의 이론적 토대
기반 연구
복잡한 주장의 팩트체킹이 과학적 주장 검증 데이터셋 구축의 방법론적 기초를 제공함
다른 접근
복잡한 사실 확인에서 프로그램 가이드와 계층적 프롬프팅의 다른 추론 방법이다.
후속 연구
프로그램 가이드 추론이 계층적 단계별 프롬프팅의 체계적 접근을 확장한다.
후속 연구
프로그램 기반 추론을 통한 복잡한 주장 팩트체킹이 정당화 자동 생성의 추론 메커니즘을 확장한다.
응용 사례
프로그램 가이드 추론이 과학 뉴스 오보 탐지의 복잡한 주장 검증에 적용된다.
응용 사례
프로그램 기반 추론을 통한 복잡한 주장 팩트체킹이 FactISR 프레임워크의 실제 적용을 보여준다.
← 목록으로 돌아가기