저자: Mark Neumann, Daniel King, Iz Beltagy, Waleed Ammar | 날짜: 2019-08 | DOI: 10.18653/v1/W19-5034
생의학 분야의 급증하는 문헌을 자동으로 처리하기 위해 spaCy 라이브러리를 기반으로 한 scispaCy라는 전문화된 자연언어처리(NLP) 라이브러리를 개발하여, 도메인 전용 모델들을 제공한다. 빠른 처리 속도와 견고한 성능을 갖춘 실무용 생의학 텍스트 처리 도구를 공개했다.
scispaCy 모델은 C++/Java 기반 시스템과 경쟁력 있는 속도를 달성함
en_core_sci_sm (어휘 크기 58,338, 단어 벡터 미포함)en_core_sci_md (어휘 크기 101,678, 98,131개 단어 벡터 포함)총평: 생의학 NLP 분야에서 실제로 필요한 통합 도구를 제공하며, 공개 데이터셋 공헌과 함께 높은 실무적 가치를 지닌 우수한 논문이다. 다만 성능 면에서 최첨단 모델들에 약간 미치지 못하지만, 속도와 사용 편의성의 우월함으로 이를 충분히 보완한다.