Enabling language models to implicitly learn self-improvement

Essence

본 논문은 대규모 언어모델(LLM)이 인간 선호도 데이터로부터 암묵적으로 자기 개선 목표를 학습할 수 있도록 하는 PIT(ImPlicit Self-ImprovemenT) 프레임워크를 제안한다. 기존 프롬프팅 기반 자기 개선 방법들과 달리, 명시적인 평가 기준(rubric) 설계 없이 보상 모델 학습에 사용되는 선호도 데이터만으로 응답 품질을 개선할 수 있다.

Motivation

Known: 프롬프팅 기반 자기 개선 방법(Self-Refine 등)들이 효과적이고 효율적이며, 명시적 루브릭이 필요함. RLHF 기반 정렬 방법이 널리 사용 중임.
Gap: 복잡한 실제 목표(더 도움이 되고 해롭지 않기 등)에 대해 포괄적인 평가 기준을 수동으로 작성하기 어렵고 비용이 높음. 도메인 전문 지식이 필요한 경우 확장 불가능함.
Why: 응답 개선을 위한 명확한 지표를 수량화하기 어렵고, "더 도움이 되도록"이라는 모호한 지시는 응답 길이만 증가시켜 오히려 성능을 저하시킬 수 있음.
Approach: 명시적 루브릭 설계에서 벗어나 데이터로부터 암묵적으로 자기 개선을 학습. 보상 모델 훈련용 선호도 데이터에 이미 개선 목표가 내재되어 있다는 직관을 활용. RLHF 훈련 목표를 재구성: 주어진 입력에 대한 응답 품질 최대화 → 참조 응답 조건에서 응답 품질 차이 최대화.

Achievement

프롬프팅 기반 방법 대비 우수한 성능: 실제 데이터셋 2개와 합성 데이터셋 1개에 대한 평가에서 Self-Refine 등 프롬프팅 방법을 크게 능가함.
추가 데이터 및 인적 노력 불필요: 보상 모델 훈련에 사용되는 기존 선호도 데이터를 재활용하므로 새로운 인간 주석 필요 없음.
도메인 일반성: 루브릭 설계가 필요 없어 도메인 전문 지식이 필요한 분야에도 적용 가능.

How

방법론의 핵심 요소:

입력 형식 변경: 정책 모델은 입력 x에서 응답 생성, PIT는 입력 x와 참조 응답 y_ref에서 개선된 응답 생성
감독 학습(SFT) 재구성:
- 정책 모델: L^SFT_P = -∑log M_P(y_w|x)
- PIT: L^SFT_PIT = -∑log M_PIT(y_w|x, y_l) (더 나쁜 응답과 더 좋은 응답 모두 활용)
보상 모델 재설계: 절대 보상이 아닌 응답 간 품질 차이(reward gap) 학습
- 순서 제약: r^w,l_gap ≥ r^w,w_gap ≈ r^l,l_gap ≥ r^l,w_gap
- 다중 쌍 관계를 고려한 손실 함수(식 2): 5개의 부등식 조건 모두 만족하도록 훈련
강화 학습(RL): 개선된 응답의 품질 차이를 최대화하는 정책 최적화
- 기존: E[r(x, y)] 최대화 → PIT: E[r_gap(x, y_ref, y_PIT)] 최대화
반복 적용: 개선된 응답을 새로운 참조 응답으로 사용하여 반복적 개선 가능