저자: Zheng Chu, Haiming Fan, Jingchang Chen, Qianyu Wang, Mingda Yang, Jiafeng Liang, Zhongjie Wang, Hao Li, Guoan Tang, Ming Liu, Bing Qin | 날짜: 2025 | DOI: N/A
그림 1: 다중 홉 질의응답에서 반복적 검색과 자기비판 유도 추론의 비교. 제안 방법은 반복적 추론 중 자기비판을 통합하고 피드백에 기반한 탐색을 수행함
대규모 언어모델(LLM)의 지식 제한 문제를 해결하기 위해, 자기비판 피드백을 통해 반복적 추론 과정을 유도하는 새로운 다중 홉 질의응답 방법을 제안한다. 모델이 질문 분해, 검색, 추론, 자기평가를 학습하여 중간 단계의 오류를 줄이고 최적 추론 경로를 선택할 수 있도록 한다.
그림 2: SiGIR의 전체 구조. (I) 자기비판 기능을 가진 반복적 추론기 학습 과정, (II) 질문 분해/검색/추론/평가를 포함한 SC-Reasoner의 특성, (III) 탐색과 보상 기반 탐색을 통한 최적 경로 선택
총평: 자기비판 피드백을 다층적으로 활용한 반복적 추론 프레임워크는 다중 홉 질의응답에서 실질적 성능 향상을 달성했으며, 특히 중간 단계 오류 제어와 효율적 탐색 측면에서 기여도가 높다. 다만 critic 모델의 일반화 능력과 극단적 복잡성 시나리오에서의 확장성에 대한 추가 분석이 요구된다.