Few-shot Learning with Retrieval Augmented Language Models

저자: Gautier Izacard, Patrick Lewis, M. Lomeli, Lucas Hosseini, F. Petroni | 날짜: 2022 | DOI: N/A


Essence

Figure 1

Figure 1: Atlas는 사전학습과 미세조정 단계 모두에서 검색을 활용하는 검색 증강 언어 모델로, 지식 기반 작업에서 강력한 few-shot 성능을 보임

본 논문은 매개변수 메모리에 의존하지 않고 외부 지식 소스를 활용하는 검색 증강 언어 모델(Atlas)을 제시하여, 550억 개 매개변수 모델보다 50배 적은 매개변수(110억)로 우수한 few-shot 학습 성능을 달성한다.

Motivation

Achievement

Figure 2

Figure 2: KILT 벤치마크의 다양한 작업(사실 검증, 질의응답, 엔티티 링킹)에 대한 쿼리-출력 쌍의 예시

  1. Few-shot 성능 우수성: NaturalQuestions에서 64개 예시만으로 42.4% 정확도 달성 (PaLM 540B 대비 3% 우수), Wikipedia 인덱스만 사용 시 45.1% 달성
  2. Full-dataset 성능 최고 성과: NaturalQuestions (+8.1%), TriviaQA (+9.3%), FEVER, KILT의 5개 작업에서 새로운 최고 성능 기록
  3. MMLU 성능: 매개변수 15배 많은 모델과 동등하거나 우수한 성능 달성
  4. 인덱스 압축: Product quantization을 이용한 압축 인덱스가 비압축 인덱스와 유사한 성능을 유지하면서 5배 메모리 감소 달성

How

아키텍처 설계

Retriever 학습 목적 함수

  1. Attention Distillation (ADist): 언어 모델의 교차-주의 점수(α_n ∥v_n∥²)를 retriever 확률 분포로 KL-divergence 최소화하여 증류
  2. EMDR² (End-to-end Multi-Document Reader and Retriever): EM 알고리즘 영감, 검색된 문서를 잠재 변수로 취급하여 $\log[\sum_{k=1}^K p_{lm}(a|q,d_k)p_{retr}(d_k|q)]$ 최대화
  3. Perplexity Distillation (PDist): 언어 모델이 각 문서로부터 받는 perplexity 개선을 학습 신호로 활용하는 단순한 손실 함수
  4. Margin-MSE: 문서 쌍 간의 상대적 순위를 고려한 마진 기반 평균제곱오차(MSE) 손실

사전학습 전략

미세조정 전략

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 검색 증강 언어 모델의 few-shot 학습 능력을 체계적으로 탐구하여, 매개변수 효율성과 성능 간의 새로운 균형점을 제시한 고품질 연구다. 특히 실무 적용 가능성과 지식 업데이트 용이성 측면에서 학계와 산업계에 모두 기여할 수 있는 중요한 작업이다.

← 목록으로 돌아가기