Kimi k1.5: Scaling reinforcement learning with llms

저자: Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Feng Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo | 날짜: 2025 | DOI: arXiv:2501.12599v4


Essence

Figure 1: Kimi k1.5 long-CoT results

본 논문은 대규모 언어모델(LLM)의 강화학습(RL) 기반 훈련을 통해 추론 성능을 대폭 향상시킨 Kimi k1.5 모델을 제시한다. 긴 맥락(long context) 확장과 개선된 정책 최적화를 기반으로 복잡한 기법(MCTS, 가치함수 등) 없이도 o1 수준의 성능을 달성했다.

Motivation

Achievement

Figure 2: Kimi k1.5 short-CoT results
  1. Long-CoT 성능: AIME 77.5점(o1 74.4점과 동등), MATH-500 96.2점(o1 94.8점 상회), Codeforces 94 백분위 달성
    • MathVista 74.9점, MMMU 70점으로 멀티모달 추론 우수성 입증
  2. Short-CoT 성능: AIME 60.8점(GPT-4o 16점 대비 +550%), MATH-500 94.6점으로 기존 단문 추론 모델 대폭 초과
    • LiveCodeBench 47.3점으로 코딩 추론 성능 향상
  3. Long2Short 방법론: 긴 추론에서 학습한 활성화 패턴을 단문 모델에 이전하여 성능 유지

How

Figure 3: Large Scale Reinforcement Learning Training System for LLM

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 긴 맥락과 간단한 정책 최적화만으로 o1 수준의 추론 성능을 달성한 점에서 실질적 기여도가 크다. 특히 Long2Short 기법으로 단문 모델도 대폭 향상시킨 결과는 실무적 가치가 높으나, 훈련 데이터 공개 미흡과 이론적 근거 보강이 이루어진다면 더욱 설득력 있는 연구가 될 것으로 판단된다.

같이 보면 좋은 논문

기반 연구
다중 턴 강화학습의 기본 원리를 제공하여 정책 최적화 기반 추론 성능 향상의 토대가 된다.
다른 접근
두 논문 모두 순수 RL로 추론 성능을 향상시키지만 긴 맥락 확장 vs 검증 강화의 다른 초점을 가진다.
다른 접근
두 논문 모두 인간 주석 없이 순수 RL로 추론 능력을 유도하되, DeepSeek-R1은 검증 강화에, Kimi k1.5는 긴 맥락 확장에 중점을 둔다.
반론/비판
복잡한 기법 없이도 o1 수준 달성 가능성을 보여 AGI 도전과제에 대한 다른 관점을 제시한다.
← 목록으로 돌아가기