저자: Shubham Parashar, Shurui Gui, Xiner Li, Hongyi Ling, Sushil Vemuri | 날짜: 2025 | DOI: 10.48550/arXiv.2506.06632
E2H Reasoner의 작업 분해: 학습이 진행됨에 따라 자명(Trivial) → 쉬움(Easy) → 중간(Medium) → 어려움(Hard) 작업으로 점진적 전환
본 논문은 대규모 언어모델(LLM)의 추론 능력을 강화학습(RL)과 커리큘럼 학습을 결합하여 개선하는 E2H Reasoner 방법을 제시한다. 작업을 난이도별로 분해하고 확률적 스케줄러를 통해 쉬운 작업에서 어려운 작업으로 점진적 학습을 수행함으로써, 단순 RL만으로는 해결 불가능한 추론 문제를 학습 가능하게 한다.
Pass@k 평가에서 E2H가 기저 모델을 상회: (a) Countdown, (b) Blocksworld, (c) LLaMA 3.2 3B의 추론 예시
코사인 기반 스케줄링 메커니즘 (Gaussian Sampler를 통한 동적 작업 비중 조정)
방법론의 핵심 요소:
총평: 본 논문은 LLM 추론 학습을 위해 커리큘럼 학습과 강화학습을 결합한 실질적으로 효과적인 방법을 제시하며, 이론적 수렴 보장과 실증적 우수성을 동시에 제공한다. 다만 난이도 분해의 자동화, 대규모 모델 검증, 하이퍼파라미터 민감도 분석 등의 보완이 있으면 영향력이 더욱 증대될 것으로 판단된다.