저자: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu | 날짜: 2025 | DOI: 10.48550/arXiv.2506.03106
그림 1: (a) Critique-GRPO는 수치 피드백만이 아닌 자연어 피드백(비판)을 통해 초기 응답과 자기 개선 모두에서 학습 가능. (b) Qwen3-8B에서 8가지 추론 과제 평균 Pass@1 4.5% 개선. (c) 자기 비판을 통한 자기 개선으로 AIME 2024에서 66.7% Pass@1 달성.
본 논문은 순수 수치 보상(numerical rewards)의 한계를 극복하기 위해 자연언어 비판(natural language critiques)을 온라인 강화학습(online RL) 프레임워크에 통합한 Critique-GRPO를 제안한다. 이는 LLM의 추론 능력을 향상시키는 새로운 접근 방식이다.
그림 2: Critique-GRPO 개요. 질문에 대해 초기 응답을 샘플링하고, 보상 시스템의 비판을 활용하여 in-context learning으로 응답을 개선. 이를 초기 응답과 결합하여 정책 최적화 수행.
그림 3: [상세 메커니즘 시각화]
총평: 본 논문은 순수 수치 피드백 RL의 구체적 한계를 실증적으로 규명하고, 자연언어 비판과의 통합을 통해 온라인 RL 프레임워크를 성공적으로 확장한 의미 있는 연구이다. 광범위한 실험 결과와 일관된 성능 개선은 실용적 가치가 높으나, 이론적 깊이와 계산 효율성 측면에서는 추가 개선의 여지가 있다.