저자: Jinhyuk Lee, WonJin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim | 날짜: 2019 | DOI: 10.1093/bioinformatics/btz682
생의학 문헌의 급증에 따라 생의학 텍스트 마이닝의 중요성이 높아지고 있으나, 일반 도메인에서 사전학습된 BERT를 직접 적용하면 어휘 분포의 차이로 인해 성능이 저하되는 문제를 해결하기 위해, 저자들은 PubMed와 PMC 생의학 코퍼스에서 추가 사전학습한 BioBERT를 제안하여 명명된 개체 인식(NER), 관계 추출(RE), 질의응답(QA)에서 기존 최고 성능 모델을 능가하는 성과를 달성했다.
Figure 1. BioBERT의 사전학습 및 미세조정 개요
Figure 2. (a) PubMed 코퍼스 크기 변화에 따른 성능 (b) 다양한 사전학습 단계에서 BioBERT의 NER 성능
사전학습 전략:
미세조정 전략:
코퍼스 조합 실험:
총평: BioBERT는 도메인 특화 사전학습의 중요성을 명확히 입증하며, 생의학 텍스트 마이닝 커뮤니티에 실질적이고 즉시 활용 가능한 기여를 제공한 연구다. 공개된 모델과 코드는 이후 생의학 NLP 분야의 발전을 견인한 중요한 기초 자산이 되었다.