Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

저자: Xiaoyuan Liu, Tian Liang, Zhiwei He, Jiahao Xu, Wenxuan Wang | 날짜: 2025 | DOI: 10.48550/arXiv.2505.13445


Essence

Figure 1

RISE 프레임워크: (i) 문제 풀이 및 검증 생성 단계와 (ii) RL 최적화 단계로 구성

대규모 언어모델(LLM)의 "표면적 자기반성(superficial self-reflection)" 문제를 해결하기 위해, 검증 가능한 보상(verifiable rewards)을 활용하여 문제 풀이 능력과 자기검증 능력을 동시에 온라인으로 학습하는 RISE 프레임워크를 제안한다.

Motivation

Achievement

Figure 2

다양한 샘플링 예산에서의 테스트 타임 성능 비교 (k값)

  1. 추론 정확도 향상: Qwen-3B 기준 Zero-RL 베이스라인 대비 3.7% 평균 개선, 지시어 조정 모델(Qwen-3B-Instruct)과 비교하면 일관된 상위 성능
  2. 검증 능력 대폭 개선: 검증 정확도에서 최대 2.8배 향상 달성, Qwen-3B-Instruct 대비 33.4% 성능 이득
  3. 테스트 타임 다수결 투표(majority voting) 초과: RISE-3B와 RISE-7B가 k=4 추론 예산 하에서 표준 다수결 투표를 각각 +0.2%, +1.9% 상회
  4. 모델 규모 확장성: 1.5B, 3B, 7B 모델에서 일관된 성능 개선으로 방법론의 일반성 입증

How

Figure 3

RISE와 다른 접근법 간의 비교 분석

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 검증 가능한 보상을 활용하여 LLM의 문제 풀이와 자기검증 능력을 동시에 강화하는 실용적이고 효과적인 온라인 RL 프레임워크를 제안하며, 수학적 추론 벤치마크에서의 일관된 성능 개선과 상세한 분석으로 학계의 주목할 만한 기여이다.

같이 보면 좋은 논문

기반 연구
검증 가능한 도메인에서의 구조화된 학습 방식이 자기검증 능력 개발의 기초가 된다.
다른 접근
자기수정에서 외부 도구 활용 vs 자기검증 능력 동시 학습의 다른 전략을 제시한다.
다른 접근
자기검증 능력 개발에서 온라인 동시 학습 vs 다중턴 정책-검증자 전환의 다른 접근 방식을 제시한다.
다른 접근
LLM 검증을 위한 다른 자기검증 접근 방식
후속 연구
외부 도구 기반 검증을 내재화하여 자기검증 능력을 동시에 학습하는 발전된 형태다.
후속 연구
신뢰할 수 있는 자기 검증 접근법이 단계별 추론 오류 감지를 강화학습으로 발전시킨 확장된 방법론이다.
후속 연구
제어 가능한 강화학습의 원리를 검증 가능한 환경에서의 자기검증 학습으로 확장한다.
후속 연구
DeepSeek-R1의 자발적 추론 패턴 개발을 자기검증 능력 동시 학습으로 확장한 접근법이다.
후속 연구
자기 수정 능력을 검증 가능한 보상과 결합하여 더 체계적인 온라인 학습 프레임워크로 발전시킨다.
후속 연구
자연언어 비판을 검증 가능한 보상 환경에서 활용하여 더 체계적인 학습 프레임워크로 발전시킨다.
응용 사례
검증 가능한 보상 환경에서의 학습 원리를 연구 아이디어 생성의 품질 제어에 적용한다.
← 목록으로 돌아가기