Kimi k1.5: Scaling reinforcement learning with llms

Essence

본 논문은 대규모 언어모델(LLM)의 강화학습(RL) 기반 훈련을 통해 추론 성능을 대폭 향상시킨 Kimi k1.5 모델을 제시한다. 긴 맥락(long context) 확장과 개선된 정책 최적화를 기반으로 복잡한 기법(MCTS, 가치함수 등) 없이도 o1 수준의 성능을 달성했다.

Motivation

Known:
- 차세대 토큰 예측 기반 사전훈련은 사용 가능한 고품질 데이터량으로 제한됨
- RL은 LLM의 새로운 확장 축을 제시하지만 선행 연구는 경쟁력 있는 결과 미흡
Gap:
- RL과 LLM의 효과적 결합 방식이 확립되지 않음
- 복잡한 계획 알고리즘 없이도 강력한 추론 성능 달성 가능성 미탐색
Why:
- 모델이 보상 신호로부터 자동 탐색 가능 → 정적 데이터셋 한계 극복
- 긴 맥락 윈도우 활용으로 암시적 탐색 공간 구성 가능
Approach:
- 128k 토큰 맥락 창 확장
- 부분 롤아웃(partial rollout)을 통한 훈련 효율화
- 온라인 미러 강하(online mirror descent) 기반 정책 최적화
- 멀티모달 RL 훈련

Achievement

Long-CoT 성능: AIME 77.5점(o1 74.4점과 동등), MATH-500 96.2점(o1 94.8점 상회), Codeforces 94 백분위 달성
- MathVista 74.9점, MMMU 70점으로 멀티모달 추론 우수성 입증
Short-CoT 성능: AIME 60.8점(GPT-4o 16점 대비 +550%), MATH-500 94.6점으로 기존 단문 추론 모델 대폭 초과
- LiveCodeBench 47.3점으로 코딩 추론 성능 향상
Long2Short 방법론: 긴 추론에서 학습한 활성화 패턴을 단문 모델에 이전하여 성능 유지

How

Figure 3: Large Scale Reinforcement Learning Training System for LLM

RL 프롬프트 셋 큐레이션:
- 다양한 학문 분야 커버(STEM, 코딩, 일반 추론)
- 모델 기반 난이도 평가: SFT 모델의 10회 샘플링 통과율로 난이도 산정
- 보상 해킹 방지: 8회 무추론 샘플링으로 정답 도달 가능한 문제 제거
Long-CoT 지도 미세조정:
- 고품질 추론 경로 데이터셋 구성
- 계획(planning), 평가(evaluation), 반성(reflection), 탐색(exploration) 요소 포함
- 긴 맥락에서 자동회귀 추론으로 암시적 계획 수행
강화학습 최적화:
- 부분 롤아웃: 이전 궤적 재사용으로 처음부터 생성 비용 절감
- 온라인 미러 강하 변형으로 견고한 정책 최적화
- 길이 페널티와 데이터 레시피 최적화 통합
- 검증 가능 문제는 규칙 기반 보상, 일반 QA는 학습된 보상 모델 활용

Originality

맥락 길이의 명시적 확장 축: 128k 토큰 범위에서 RL 성능이 지속 향상됨을 입증 → 기존의 MCTS나 가치함수 중심 접근과 차별화
부분 롤아웃 기법: 이전 궤적 재사용으로 RL 훈련 효율성 대폭 개선 → 대규모 훈련 가능성 제시
단순한 프레임워크의 강력성: 복잡한 별도 계획 알고리즘 없이 자동회귀 생성만으로 암시적 탐색 달성
멀티모달 RL 훈련: 텍스트와 비전 데이터 공동 훈련으로 크로스모달 추론 능력 확보
Long2Short 지식 이전: 장문 추론의 내부 표현을 단문 모델에 적용하는 체계적 방법론

Limitation & Further Study

검증 모델의 한계: 보상 해킹 방지를 위한 현재 방법(N=8 무추론 샘플링)이 경험적 휴리스틱 → 더 정교한 검증 모델 개발 필요
훈련 데이터 공개 미흡: RL 프롬프트 셋 상세 구성 및 규모에 대한 구체적 정보 부족 → 재현성 제한
추론 비용 분석 부재: 긴 맥락 활용으로 인한 추론 시간/계산량 증가의 정량적 평가 미제시
문제 도메인 한정성: STEM, 코딩 중심의 검증 가능 문제에 최적화 → 개방형 생성 과제로의 확장 방안 미명시
후속 연구 방향:
- 더욱 정교한 보상 모델 및 검증 시스템 개발
- 다양한 도메인(대화, 창작, 분석)으로의 RL 확대 적용
- 추론 효율성 최적화 (길이-성능 트레이드오프 개선)
- 가치함수 없는 계획의 이론적 근거 강화

Evaluation

총평: 본 논문은 긴 맥락과 간단한 정책 최적화만으로 o1 수준의 추론 성능을 달성한 점에서 실질적 기여도가 크다. 특히 Long2Short 기법으로 단문 모델도 대폭 향상시킨 결과는 실무적 가치가 높으나, 훈련 데이터 공개 미흡과 이론적 근거 보강이 이루어진다면 더욱 설득력 있는 연구가 될 것으로 판단된다.

같이 보면 좋은 논문

기반 연구

PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier

다중 턴 강화학습의 기본 원리를 제공하여 정책 최적화 기반 추론 성능 향상의 토대가 된다.

다른 접근

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

두 논문 모두 순수 RL로 추론 성능을 향상시키지만 긴 맥락 확장 vs 검증 강화의 다른 초점을 가진다.

다른 접근

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

두 논문 모두 인간 주석 없이 순수 RL로 추론 능력을 유도하되, DeepSeek-R1은 검증 강화에, Kimi k1.5는 긴 맥락 확장에 중점을 둔다.

반론/비판

Evaluation of openai o1: Opportunities and challenges of agi

복잡한 기법 없이도 o1 수준 달성 가능성을 보여 AGI 도전과제에 대한 다른 관점을 제시한다.