Large language models can self-improve

저자: Jiaxin Huang, Shixiang Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han | 날짜: 2022 | DOI: N/A


Essence

Figure 1: 방법의 개요. Chain-of-Thought 예시를 활용하여 언어모델이 여러 개의 CoT 추론 경로를 생성하고, 다수결 투표(Majority Voting)로 고신뢰도 답변을 선택한 후, 이를 파인튜닝 데이터로 활용

그림 1: 방법의 개요. Chain-of-Thought 예시를 활용하여 언어모델이 여러 개의 CoT 추론 경로를 생성하고, 다수결 투표(Majority Voting)로 고신뢰도 답변을 선택한 후, 이를 파인튜닝 데이터로 활용

대규모 언어모델(LLM)이 레이블 없는 데이터만으로 자기 생성 고신뢰도 추론(reasoning) 경로를 통해 자가 개선(self-improve)할 수 있음을 입증한 논문이다. Chain-of-Thought 프롬팅과 자기 일관성(self-consistency)을 활용하여 감독 신호 없이 모델의 추론 능력을 향상시킨다.

Motivation

Achievement

Figure 2: GSM8K 훈련 집합에서 다중 경로 디코딩 후 다수결 투표 답변의 신뢰도와 정확도 관계

그림 2: GSM8K 훈련 집합에서 다중 경로 디코딩 후 다수결 투표 답변의 신뢰도와 정확도 관계

  1. 도메인 내 성능 대폭 향상: 540B 파라미터 PaLM 모델에서 GSM8K 74.4%→82.1%, DROP 78.2%→83.0%, OpenBookQA 90.0%→94.4%, ANLI-A3 63.4%→67.9%로 개선. 감독 신호 없이 최신 수준(state-of-the-art) 성능 달성
  2. 도메인 외 일반화(Out-of-Domain Generalization): AQUA, StrategyQA, MNLI 등 훈련 분포와 다른 데이터셋에서도 성능 개선. 자가 개선이 특정 데이터셋에 과적합(overfitting)되지 않고 일반적 추론 능력을 향상시킴을 입증
  3. 상태 추적 능력: 신뢰도 척도(confidence measure)가 실제 정확도와 높은 상관관계를 보임(Figure 2). 모델이 자신의 신뢰도를 정확히 평가할 수 있음을 시사

How

Figure 3: PaLM-540B에서 다중 경로 샘플링을 사용한 GSM8K 테스트 집합에서의 정확도 결과

그림 3: PaLM-540B에서 다중 경로 샘플링을 사용한 GSM8K 테스트 집합에서의 정확도 결과

Originality

Limitation & Further Study

Evaluation

총평: 이 논문은 레이블 없는 데이터로 대규모 언어모델이 자가 개선할 수 있음을 명확히 입증한 중요한 연구다. Chain-of-Thought와 자기 일관성을 창의적으로 조합하여 강력한 자동 감독 신호를 얻었으며, 도메인 내외 다수 데이터셋에서 상태 추적 수준의 성능을 달성했다. 다만 신뢰도 평가의 정교성, 오류 증폭 위험, 계산 비용 등의 한계가 있으나, 감독 신호 의존성을 크게 줄일 수 있다는 점에서 실무적 가치가 매우 높다.

같이 보면 좋은 논문

기반 연구
언어모델의 자기개선 능력에 대한 기초 연구로서 생성-검증 갭 분석의 이론적 토대를 제공한다.
다른 접근
LLM 자기 개선의 서로 다른 접근법으로 명시적 vs 암묵적 방법을 비교한다.
다른 접근
LLM 자기 개선에서 암묵적 학습과 명시적 추론의 서로 다른 접근법이다.
다른 접근
LLM의 기술 판단 능력과 자기 개선 능력 모두 모델의 추론 역량을 다룬다.
후속 연구
반복적 자기 피드백을 통한 개선 방법론을 확장한다.
후속 연구
자기 피드백을 통한 반복적 정제가 LLM의 자기 개선 능력을 실현하는 구체적 방법론으로 발전했다.
응용 사례
단계별 추론 검증에 자기 개선 기법이 적용된다.
← 목록으로 돌아가기