SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

저자: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie | 날짜: 2025 | DOI: 10.48550/arXiv.2501.17161


Essence

Figure 1

Figure 1: V-IRL 시각 네비게이션 환경에서 RL과 SFT의 비교 연구. OOD 곡선은 서로 다른 텍스트 액션 공간을 사용한 동일 작업의 성능을 나타냄

본 논문은 기초 모델의 사후훈련(post-training) 단계에서 지도학습 미세조정(SFT)과 강화학습(RL)의 일반화(generalization) 능력을 비교하는 체계적 연구로, RL은 규칙 기반 추론과 시각 작업에서 우수한 일반화 성능을 보이는 반면, SFT는 훈련 데이터의 암기(memorization)에 치중한다는 핵심 발견을 제시한다.

Motivation

Achievement

Figure 4 & 5 병합 개념

Figure: GeneralPoints와 V-IRL에서 RL과 SFT의 성공률(%) 추이 비교. RL이 분포 외 데이터(OOD)에서 일관된 성능 개선을 유지

  1. 우수한 규칙 기반 일반화: RL은 훈련된 규칙을 미보유(unseen) 규칙 변형에 성공적으로 전이시키는 반면, SFT는 분포 외(out-of-distribution) 작업에서 큰 성능 저하를 보임
  2. 시각 영역 일반화: RL은 색상, 공간 배치 등 시각 입력 변형에 대해서도 일관된 일반화를 달성하고, V-IRL 벤치마크에서 최첨단 성능 달성 (+33.8%: 44.0% → 77.8%)
  3. 시각 인식 능력 향상: 결과 기반 보상(outcome-based reward) 함수를 사용한 RL 훈련이 모델의 기저 시각 인식 능력을 개선하는 메커니즘 규명
  4. SFT의 보조 역할: SFT는 출력 포맷 안정화 "형식 교사(format teacher)" 역할을 하여 RL의 성능 이득 달성을 가능하게 함
  5. 추론시간 계산 스케일링: 최대 검증 단계 수 증대를 통한 추론시간 계산 확장이 RL 일반화의 핵심 요소임을 입증

How

Figure 2 & 3 참조

Figure 2-3: 검증자(verifier)를 이용한 순차적 수정 공식화. 상태-액션 전이 예시

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

총평: 본 논문은 대규모 기초 모델 훈련에서 광범위하게 사용되는 두 주요 기법의 일반화 능력을 체계적으로 비교한 중요한 실증 연구로, "RL은 일반화, SFT는 암기"라는 명확한 구분을 통해 향후 모델 개발 전략에 실질적 지침을 제공한다. 다만 작업 범위와 모델 다양성 측면에서의 확장이 필요하며, SFT-RL 상호작용의 최적화 메커니즘에 대한 더 깊은 분석이 요구된다.

같이 보면 좋은 논문

기반 연구
RL의 일반화 우수성을 추론 시간 편향 완화에 활용하여 모델 재학습 없이 성능을 개선한다.
다른 접근
모델 학습 방식에 따른 성능 차이를 SFT vs RL 관점에서 분석하는 반면, 생성-검증 갭으로 접근한다.
다른 접근
자기개선 메커니즘을 생성-검증 갭 관점에서 분석하는 반면, SFT vs RL의 일반화 능력 차이로 접근한다.
응용 사례
RL의 일반화 우수성을 추론 시간 편향 완화에 적용하여 실제 문제 해결에 활용한다.
← 목록으로 돌아가기