저자: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian | 날짜: 2025 | DOI: 10.48550/arXiv.2505.02387
보상 모델(Reward Model, RM)에 추론 능력을 통합함으로써 해석 가능성과 성능을 모두 향상시킨 새로운 클래스의 생성형 보상 모델인 RM-R1을 제시한다. Chain-of-Rubrics(CoR) 메커니즘을 통해 작업 특성에 맞춘 맞춤형 추론 전략을 적용하여 70B, 340B 모델과 GPT-4o를 최대 4.9% 능가한다.
RM-R1의 훈련 파이프라인: 증류 단계에서 고품질 합성 데이터로 추론 능력을 부트스트랩하고, RL 단계에서 추가로 강화
총평: 보상 모델링을 추론 작업으로 재정의하는 핵심 아이디어와 Chain-of-Rubrics의 작업 인식 메커니즘이 혁신적이며, 실증적 성과(최대 4.9% 성능 향상)와 체계적 분석을 통해 실질적 기여를 입증한 우수한 연구이다. 다만 오라클 모델 의존성과 작업 분류의 이진 구조는 실무 확장성 측면에서 개선 여지가 있다.