Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

저자: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu | 날짜: 2025 | DOI: 10.48550/arXiv.2506.03106


Essence

Figure 1

그림 1: (a) Critique-GRPO는 수치 피드백만이 아닌 자연어 피드백(비판)을 통해 초기 응답과 자기 개선 모두에서 학습 가능. (b) Qwen3-8B에서 8가지 추론 과제 평균 Pass@1 4.5% 개선. (c) 자기 비판을 통한 자기 개선으로 AIME 2024에서 66.7% Pass@1 달성.

본 논문은 순수 수치 보상(numerical rewards)의 한계를 극복하기 위해 자연언어 비판(natural language critiques)을 온라인 강화학습(online RL) 프레임워크에 통합한 Critique-GRPO를 제안한다. 이는 LLM의 추론 능력을 향상시키는 새로운 접근 방식이다.

Motivation

Achievement

Figure 2

그림 2: Critique-GRPO 개요. 질문에 대해 초기 응답을 샘플링하고, 보상 시스템의 비판을 활용하여 in-context learning으로 응답을 개선. 이를 초기 응답과 결합하여 정책 최적화 수행.

  1. 광범위한 성능 개선:
    • Qwen 모델 계열에서 평균 Pass@1 +15.0-21.6% 개선
    • Llama-3.2-3B-Instruct에서 +7.3% 개선
    • 8가지 도전적인 추론 과제(reasoning benchmarks) 전반에서 우수한 성능
  2. 자기 비판을 통한 자기 개선:
    • 자기 생성 비판(self-generated critiques)만으로도 GRPO 대비 +16.7% Pass@1 개선 달성 (AIME 2024)
    • 모델이 외부 전문가에 의존하지 않고도 자율적 개선 가능
  3. 비판 소스의 강건성:
    • 규칙 기반(rule-based) 및 모델 기반(model-based) 보상 시스템 모두에서 일관된 개선
    • 다양한 형태의 비판(지시적 비판, 근거 포함 비판, 연쇄적 사고 비판)에 모두 대응

How

Figure 3

그림 3: [상세 메커니즘 시각화]

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 순수 수치 피드백 RL의 구체적 한계를 실증적으로 규명하고, 자연언어 비판과의 통합을 통해 온라인 RL 프레임워크를 성공적으로 확장한 의미 있는 연구이다. 광범위한 실험 결과와 일관된 성능 개선은 실용적 가치가 높으나, 이론적 깊이와 계산 효율성 측면에서는 추가 개선의 여지가 있다.

같이 보면 좋은 논문

기반 연구
자기 피드백을 통한 반복적 개선의 원리를 자연언어 비판으로 구현한 기초 방법론이다.
기반 연구
자연어 기반 강화학습 방법론이 심사평 생성에서 다목적 보상 함수 설계의 이론적 기반을 제공한다.
다른 접근
강화학습에서 자연언어 비판 vs CoR 메커니즘을 통한 추론 능력 향상의 서로 다른 방법을 제시한다.
다른 접근
보상 모델에 추론 능력을 통합하는 방법에서 CoR 메커니즘 vs 자연언어 비판의 차이를 보인다.
후속 연구
자연어 비판을 통한 LLM 추론 향상이 WoT의 오류 정보 활용 접근을 더 정교한 피드백 시스템으로 발전시킨다.
후속 연구
자연언어 비판을 검증 가능한 보상 환경에서 활용하여 더 체계적인 학습 프레임워크로 발전시킨다.
← 목록으로 돌아가기