Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

저자: Shubham Parashar, Shurui Gui, Xiner Li, Hongyi Ling, Sushil Vemuri | 날짜: 2025 | DOI: 10.48550/arXiv.2506.06632


Essence

Figure 2

E2H Reasoner의 작업 분해: 학습이 진행됨에 따라 자명(Trivial) → 쉬움(Easy) → 중간(Medium) → 어려움(Hard) 작업으로 점진적 전환

본 논문은 대규모 언어모델(LLM)의 추론 능력을 강화학습(RL)과 커리큘럼 학습을 결합하여 개선하는 E2H Reasoner 방법을 제시한다. 작업을 난이도별로 분해하고 확률적 스케줄러를 통해 쉬운 작업에서 어려운 작업으로 점진적 학습을 수행함으로써, 단순 RL만으로는 해결 불가능한 추론 문제를 학습 가능하게 한다.

Motivation

Achievement

Figure 1

Pass@k 평가에서 E2H가 기저 모델을 상회: (a) Countdown, (b) Blocksworld, (c) LLaMA 3.2 3B의 추론 예시

  1. 실증적 성과: 5개 추론 작업(Blocksworld, Countdown, MATH, AQuA, GSM8K)에서 최고 성능(SOTA) 달성. 특히 기저 모델이 0-shot으로 해결 불가능한 문제까지 학습하여 높은 pass@k 값 달성
  2. 이론적 보장: Approximate Policy Iteration 프레임워크 내에서 E2H Reasoner의 수렴성을 증명하고, 적절하게 분해된 작업을 통한 커리큘럼 학습이 직접 학습보다 적은 표본으로도 수렴 가능함을 보였다 (finite-sample complexity bound 도출)
  3. 일반화 능력: 커리큘럼 학습을 통해 모델이 분포 내 난제뿐만 아니라 분포 외(OOD) 작업으로의 일반화 능력을 강화

How

Figure 3

코사인 기반 스케줄링 메커니즘 (Gaussian Sampler를 통한 동적 작업 비중 조정)

방법론의 핵심 요소:

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 LLM 추론 학습을 위해 커리큘럼 학습과 강화학습을 결합한 실질적으로 효과적인 방법을 제시하며, 이론적 수렴 보장과 실증적 우수성을 동시에 제공한다. 다만 난이도 분해의 자동화, 대규모 모델 검증, 하이퍼파라미터 민감도 분석 등의 보완이 있으면 영향력이 더욱 증대될 것으로 판단된다.

같이 보면 좋은 논문

기반 연구
정책 기반 다중턴 강화 LLM 자기교정의 기반을 제공한다
다른 접근
대규모 언어모델의 자기 인센티브화를 통한 다른 반복적 추론 개선 접근법을 제시한다
후속 연구
동적 제어를 통한 연구 아이디어 생성으로 커리큘럼 강화학습을 확장한다
← 목록으로 돌아가기