Self-critique guided iterative reasoning for multi-hop question answering

저자: Zheng Chu, Haiming Fan, Jingchang Chen, Qianyu Wang, Mingda Yang, Jiafeng Liang, Zhongjie Wang, Hao Li, Guoan Tang, Ming Liu, Bing Qin | 날짜: 2025 | DOI: N/A


Essence

Figure 1

그림 1: 다중 홉 질의응답에서 반복적 검색과 자기비판 유도 추론의 비교. 제안 방법은 반복적 추론 중 자기비판을 통합하고 피드백에 기반한 탐색을 수행함

대규모 언어모델(LLM)의 지식 제한 문제를 해결하기 위해, 자기비판 피드백을 통해 반복적 추론 과정을 유도하는 새로운 다중 홉 질의응답 방법을 제안한다. 모델이 질문 분해, 검색, 추론, 자기평가를 학습하여 중간 단계의 오류를 줄이고 최적 추론 경로를 선택할 수 있도록 한다.

Motivation

Achievement

Figure 2

그림 2: SiGIR의 전체 구조. (I) 자기비판 기능을 가진 반복적 추론기 학습 과정, (II) 질문 분해/검색/추론/평가를 포함한 SC-Reasoner의 특성, (III) 탐색과 보상 기반 탐색을 통한 최적 경로 선택

  1. 성능 향상: HotpotQA, 2WikiMQA, MuSiQue 세 데이터셋에서 평균 8.6% 성능 향상(SOTA 대비), DeepSeek-V2.5, Mistral, LLaMA2, Qwen2.5 모델에서 일관된 개선
  2. 효율성과 비용: Monte Carlo Tree Search 같은 고비용 탐색 방법 대비 계산 오버헤드를 줄이면서도 추론 확장(inference-time scaling) 효과 달성

How

Originality

Limitation & Further Study

Evaluation

총평: 자기비판 피드백을 다층적으로 활용한 반복적 추론 프레임워크는 다중 홉 질의응답에서 실질적 성능 향상을 달성했으며, 특히 중간 단계 오류 제어와 효율적 탐색 측면에서 기여도가 높다. 다만 critic 모델의 일반화 능력과 극단적 복잡성 시나리오에서의 확장성에 대한 추가 분석이 요구된다.

같이 보면 좋은 논문

기반 연구
다중 홉 질의응답의 자기비판 메커니즘을 위한 도구 통합 자기교정 방법론의 기초
다른 접근
자기비판 기반 반복 추론과 인간 피드백 기반 반복 개정이라는 서로 다른 개선 메커니즘
후속 연구
인간 피드백을 자기비판 메커니즘으로 대체하여 반복적 텍스트 개선을 자동화한 발전
← 목록으로 돌아가기