저자: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova | 날짜: 2018 | DOI: 10.48550/ARXIV.1810.04805
그림 1: BERT의 전체 사전학습 및 파인튜닝 절차. 동일한 아키텍처가 사전학습과 파인튜닝에 사용되며, 특수 토큰 [CLS]와 [SEP]를 통해 다양한 NLP 작업 처리
BERT는 양방향(Bidirectional) 자기주의(Self-Attention)를 활용하여 마스크된 토큰 예측(Masked Language Model, MLM) 목표로 사전학습한 심층 트랜스포머 인코더로, 최소한의 파인튜닝만으로 11개 NLP 작업에서 최고 성능을 달성한 혁신적인 언어 표현 모델이다.
그림 3: BERT는 양방향 트랜스포머를 사용하며, OpenAI GPT는 좌측 문맥만 참조하는 제약된 자기주의 사용
그림 2: BERT 입력 표현 구성. 토큰 임베딩, 세그먼트 임베딩, 위치 임베딩의 합으로 구성
Task #1: 마스크된 언어 모델(MLM)
Task #2: 다음 문장 예측(NSP)
총평: BERT는 MLM이라는 우아한 아이디어로 양방향 심층 사전학습을 달성하고 최소한의 아키텍처 수정으로 다양한 NLP 작업에서 최고 성능을 보임으로써, 현대 NLP의 기초를 마련한 획기적 연구이다. 높은 계산 비용과 일부 설계 선택(NSP)의 유효성 재검토 여지는 있으나, 학문적 영향력과 실무 적용성 측면에서 최상의 기여를 했다.