Unsupervised pretraining for fact verification by language model distillation

Essence

본 논문은 SFAVEL(Self-supervised Fact Verification via Language Model Distillation)을 제안하여, 인간의 주석 없이 사전학습된 언어모델의 지식을 증류(distillation)함으로써 클레임과 근거 간의 의미론적 정렬을 학습하는 자기지도학습 기반 팩트 검증 프레임워크를 소개한다. 이는 FB15k-237에서 +5.3% Hits@1, FEVER에서 +8% 정확도 개선을 달성했다.

Motivation

Known: 기존 팩트 검증 연구는 주로 NLI(Natural Language Inference) 모델이나 지식그래프 기반 방법론에 의존하며, 대규모 주석 데이터셋(FEVER, MultiFC 등)을 필요로 한다. 사전학습 언어모델은 강력한 의미 이해 능력을 보유하지만 할루시네이션(hallucination) 문제를 겪는다.
Gap: 기존 팩트 검증 방법들은 대부분 지도학습에 의존하고 있으며, 자기지도학습 기반의 팩트 검증 기법은 여전히 부족하다. 또한 LaPraDoR 같은 일반적인 대비 학습 방법은 작업별 특화성이 부족하여 FEVER에서 지도학습 SOTA와 큰 성능차를 보인다.
Why: 방대한 미표지 데이터를 활용하면서도 주석 비용을 제거할 수 있는 자기지도학습 접근법이 필요하며, 팩트 검증 작업에 특화된 대비 손실함수의 설계가 중요하다.
Approach: 사전학습된 언어모델의 특징을 지식그래프 임베딩 공간으로 증류(distillation)하는 새로운 자기지도학습 프레임워크를 제안한다. 클레임-사실 정렬(alignment)을 위한 작업별 맞춤형 손실함수(distillation loss, scoring loss, intra-sample contrastive loss)를 설계한다.

Achievement

SOTA 성능 달성: FB15k-237에서 Hits@1 기준 +5.3% 개선, FEVER에서 +8% 정확도 향상으로 선형평가(linear evaluation) 기준 새로운 SOTA 달성
주석 불필요한 자기지도학습: 인간의 레이블 없이 순전히 자기지도학습만으로 우수한 성능 달성, 대규모 미표지 데이터 활용 가능
언어모델 증류의 효과성: 8개 사전학습 언어모델의 의미론적 지식을 효과적으로 지식모델 공간으로 이전하며, 작업 특화 설계의 중요성을 입증

How

Figure 1: SFAVEL 프레임워크 개요 - (a) 자기지도학습 기반 언어모델 증류 사전학습 과정을 보여주며, 고정된 언어모델로부터 클레임 임베딩을 획득하고, 지식모델로 사실 임베딩을 생성한 후, 스코어링 모듈이 근거를 점수화하고, 세 가지 손실함수(증류, 스코어링, 대비)를 결합하여 최적화한다.

데이터 처리 파이프라인:

미표지 클레임 배치 x = {xᵢ}ₙᵢ₌₁과 지식그래프 G(ε, R) (엔티티와 관계 포함) 사용
사실 F는 (head, relation, tail) 삼중항으로 표현

사전학습 방법론:

언어모델 인코더(Frozen): 입력 클레임으로부터 X_LM 특징 획득 (8개 SOTA 사전학습 모델 중 선택)
지식모델: 지식그래프의 모든 사실을 고차원 임베딩 X_F로 변환
스코어링 모듈: 클레임 임베딩을 조건으로 하여 각 사실에 대한 점수 S ∈ [0,1] 생성
상위-K 증거 선택: 점수가 높은 상위 K개 사실을 양성 부분그래프 X_F⁺로 선택
음성 풀: 임의로 샘플링된 사실들로 음성 풀 구성

세 가지 손실함수 조합:

증류 손실(ℒ_distill): 클레임과 양성 사실 임베딩 간 대비 손실로 언어모델 지식을 지식모델 공간으로 증류
스코어링 손실(ℒ_scoring): 양성 사실에 높은 점수, 음성 사실에 낮은 점수를 부여하도록 스코어링 모듈 학습
대비 손실(ℒ_intra): 동일 클레임의 양성 사실들 간 의미 관계 보존, 코사인 유사도 기반 대비 학습

선택적 미세조정: 사전학습된 모델을 지도학습 팩트 검증 분류 작업에 미세조정 가능

Originality

작업별 특화 설계: 일반적인 대비 학습과 달리 팩트 검증의 클레임-사실 정렬 문제에 특화된 삼중 손실함수 설계로 LaPraDoR 등 기존 방법의 성능 격차 해소
다중 언어모델 지식 통합: 단일 모델이 아닌 8개 SOTA 사전학습 모델의 의미론적 지식을 체계적으로 지식그래프 임베딩으로 증류하는 프레임워크
의미 관계 보존: 단순 대비 학습을 넘어 코퍼스 전체 의미 관계를 보존하면서 클레임-증거 정렬을 달성하는 대비 손실함수 개발
엔드투엔드 자기지도 파이프라인: 주석 없이 미표지 데이터만으로 완전한 사전학습 가능한 자기지도 학습 프레임워크 (기존의 반지도/지도학습 방식과 차별화)