DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

저자: DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Jun-Mei Song | 날짜: 2025 | DOI: 10.1038/s41586-025-09422-z


Essence

Figure 1

Figure 1: (a) RL 훈련 과정에서 DeepSeek-R1-Zero의 AIME 정확도. (b) RL 프로세스 중 응답의 평균 길이 증가.

본 논문은 인간이 주석을 단 추론 궤적(reasoning trajectory) 없이 순수 강화학습(RL)을 통해 대형언어모델(LLM)의 추론 능력을 유도할 수 있음을 보여준다. RL 훈련 과정에서 모델은 자발적으로 자기 검증, 재검토, 동적 전략 적응 등의 고급 추론 패턴을 개발한다.

Motivation

Achievement

Figure 1a

AIME 2024 벤치마크에서 Pass@1 15.6%에서 77.9%로, Self-consistency 적용 시 86.7%까지 달성

  1. 수학 문제 해결: AIME 2024에서 Pass@1 기준 77.9%, Self-consistency 적용 시 86.7% 정확도 달성 (인간 평균 수준 초과)
  2. 코딩 경쟁 및 STEM 분야 우수성: 코딩 경쟁(coding competitions) 및 대학원 수준의 생물, 물리, 화학 문제에서 탁월한 성능 입증
  3. 자발적 추론 능력 발전: 외부 제약 없이 자동으로 사고 시간 증가(Figure 1b, 수백에서 수천 토큰), 검증과 재검토 등의 고급 추론 전략 독립적 개발
  4. 모델 증류(Distillation): 소형 모델로 증류된 버전들도 원래의 명령어 조정(instruction-tuned) 모델을 능가하는 추론 능력 보유

How

Figure 5

RL 프레임워크 개요

Originality

Limitation & Further Study

Evaluation

Novelty: 5/5 Technical Soundness: 5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.75/5

총평: 본 논문은 LLM의 추론 능력 발전에 있어 인간 주석의 필요성을 근본적으로 재검토하며, 순수 RL만으로 고급 추론 패턴의 자발적 발현을 입증한 혁신적 연구이다. AIME에서 인간 수준을 초과하는 성능 달성과 함께 모델의 자기 진화 과정을 명확히 보여주는 점이 높이 평가되나, 개방형 작업으로의 확장과 신경망 보상 모형의 안정화가 향후 과제로 남아있다.

같이 보면 좋은 논문

기반 연구
완전 자동화된 과학적 발견의 기초가 되는 자율적 추론 능력 개발 방법론을 제시한다.
다른 접근
두 논문 모두 인간 주석 없이 순수 RL로 추론 능력을 유도하되, DeepSeek-R1은 검증 강화에, Kimi k1.5는 긴 맥락 확장에 중점을 둔다.
다른 접근
두 논문 모두 순수 RL로 추론 성능을 향상시키지만 긴 맥락 확장 vs 검증 강화의 다른 초점을 가진다.
후속 연구
DeepSeek-R1의 자발적 추론 패턴 개발을 자기검증 능력 동시 학습으로 확장한 접근법이다.
← 목록으로 돌아가기