저자: Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy | 날짜: 2020 | DOI: 10.18653/v1/2020.acl-main.740
광범위한 데이터로 사전학습(pretraining)된 대규모 언어 모델(RoBERTa)을 도메인별·작업별로 추가 적응(adaptation)하면, 다양한 자원 환경에서 지속적인 성능 향상을 달성할 수 있음을 보여준다.
어휘 중복도를 통한 도메인 유사성 분석: CS와 생의학(BioMed) 도메인이 PT 도메인과 가장 멀리 떨어져 있음
작업 데이터는 도메인 분포의 부분집합이며, 원본 사전학습 도메인과 반드시 겹치지 않음을 시각화
총평: 본 논문은 현대 NLP의 통념(대규모 광범위 모델로 충분함)에 대한 실증적 반박을 제공하는 중요한 연구로, 4개 도메인의 8개 작업에 걸친 체계적 비교를 통해 도메인/작업 적응 사전학습의 일관된 효과를 입증했다. 어휘 겹침 분석으로 적응 이득을 사전에 예측 가능하게 하고, 자동 데이터 선택 전략으로 실무적 적용성을 높였다는 점에서 ACL 2020의 주요 기여 논문으로 평가받을 만하다.