BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

저자: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova | 날짜: 2018 | DOI: 10.48550/ARXIV.1810.04805


Essence

Figure 1

그림 1: BERT의 전체 사전학습 및 파인튜닝 절차. 동일한 아키텍처가 사전학습과 파인튜닝에 사용되며, 특수 토큰 [CLS]와 [SEP]를 통해 다양한 NLP 작업 처리

BERT는 양방향(Bidirectional) 자기주의(Self-Attention)를 활용하여 마스크된 토큰 예측(Masked Language Model, MLM) 목표로 사전학습한 심층 트랜스포머 인코더로, 최소한의 파인튜닝만으로 11개 NLP 작업에서 최고 성능을 달성한 혁신적인 언어 표현 모델이다.

Motivation

Achievement

Figure 3

그림 3: BERT는 양방향 트랜스포머를 사용하며, OpenAI GPT는 좌측 문맥만 참조하는 제약된 자기주의 사용

  1. 11개 주요 NLP 벤치마크에서 최고 성능 달성
    • GLUE: 80.5% (기존 대비 +7.7%p)
    • MultiNLI: 86.7% (+4.6%p)
    • SQuAD v1.1: 93.2 F1점 (+1.5%p)
    • SQuAD v2.0: 83.1 F1점 (+5.1%p)
  2. 파인튜닝 기반 표현 모델 중 최초로 문장 수준 및 토큰 수준 작업에서 모두 최고 성능 달성
  3. 작업별 복잡한 아키텍처 설계 필요성 제거 - 최소한의 출력층 추가만으로 다양한 작업 처리 가능

How

Figure 2

그림 2: BERT 입력 표현 구성. 토큰 임베딩, 세그먼트 임베딩, 위치 임베딩의 합으로 구성

모델 아키텍처

입력 표현

사전학습 목표

Task #1: 마스크된 언어 모델(MLM)

Task #2: 다음 문장 예측(NSP)

파인튜닝

Originality

Limitation & Further Study

Evaluation

총평: BERT는 MLM이라는 우아한 아이디어로 양방향 심층 사전학습을 달성하고 최소한의 아키텍처 수정으로 다양한 NLP 작업에서 최고 성능을 보임으로써, 현대 NLP의 기초를 마련한 획기적 연구이다. 높은 계산 비용과 일부 설계 선택(NSP)의 유효성 재검토 여지는 있으나, 학문적 영향력과 실무 적용성 측면에서 최상의 기여를 했다.

같이 보면 좋은 논문

기반 연구
양방향 트랜스포머의 사전 훈련 방법론이 고품질 단어 정렬에 필요한 문맥화된 임베딩의 이론적 기초를 제공한다.
기반 연구
BERT부터 시작된 트랜스포머 기반 언어모델의 발전이 튜링 테스트 통과라는 이정표에 도달한 역사를 보여준다
다른 접근
지식을 파라미터에 저장하는 BERT와 달리 외부 검색을 통해 지식을 활용하는 대안적 접근법이다
다른 접근
BERT의 파라미터 내장 지식 방식과 달리 외부 검색을 통한 명시적 지식 활용의 대안적 접근법이다
후속 연구
BERT의 과학 분야 특화 버전으로, 도메인별 사전학습의 중요성을 보여준다
후속 연구
범용 BERT를 과학 텍스트에 특화시킨 도메인 적응의 대표적 사례로 전문 분야 활용법을 보여준다
후속 연구
BERT가 촉발한 트랜스포머 기반 대규모 언어모델 발전의 전체적인 흐름을 이해할 수 있다
← 목록으로 돌아가기