저자: Jay DeYoung, Iz Beltagy, Madeleine van Zuylen, Bailey Kuehl, Lucy Lu Wang | 날짜: 2021 | DOI: arXiv:2104.06486
연구 배경(BACKGROUND)과 개별 의약 논문 초록(study abstracts)으로부터 목표 요약(TARGET summary)을 생성하는 텍스트-투-텍스트 다중문서 요약 작업
본 논문은 의료 분야의 문헌 검토 자동화를 목표로 470K개 의약 논문과 20K개 체계적 문헌 검토(systematic reviews)를 포함한 대규모 다중문서 요약 데이터셋 MS²을 제시하며, 이는 생의학 도메인의 첫 공개 다중문서 요약 데이터셋이다.
문헌 검토와 인용된 개별 논문 출판 연도의 분포에서 약 8년의 시간 격차가 명확히 드러남
총평: MS²는 의료 도메인에 다중문서 요약이라는 새로운 NLP 과제를 제시하고 대규모 공개 데이터셋을 제공함으로써 학계의 기여도가 크나, 현재 기준 모델의 성능(증거 방향 일치도 50%)이 실무 적용에는 미흡하며 구조화 정보의 활용 방안이 더욱 발전할 필요가 있다.