Ms2: Multi-document summarization of medical studies

저자: Jay DeYoung, Iz Beltagy, Madeleine van Zuylen, Bailey Kuehl, Lucy Lu Wang | 날짜: 2021 | DOI: arXiv:2104.06486


Essence

Figure 1

연구 배경(BACKGROUND)과 개별 의약 논문 초록(study abstracts)으로부터 목표 요약(TARGET summary)을 생성하는 텍스트-투-텍스트 다중문서 요약 작업

본 논문은 의료 분야의 문헌 검토 자동화를 목표로 470K개 의약 논문과 20K개 체계적 문헌 검토(systematic reviews)를 포함한 대규모 다중문서 요약 데이터셋 MS²을 제시하며, 이는 생의학 도메인의 첫 공개 다중문서 요약 데이터셋이다.

Motivation

Achievement

Figure 2

문헌 검토와 인용된 개별 논문 출판 연도의 분포에서 약 8년의 시간 격차가 명확히 드러남

  1. 데이터셋 구축: 체계적 문헌 검토 자동 식별 파이프라인(키워드 필터 → PubMed 필터 → 문서 유형 필터 → 적합성 분류기)을 통해 20K개 검토와 470K개 개별 논문으로 구성된 대규모 데이터셋 구축. 테스트셋의 모든 TARGET 문장 2K개 검토(4,519문)에 대해 수동 검증 수행.
  2. 다중 형식 지원: 자유 텍스트 형식(texts-to-text seq2seq)과 구조화된 형식(table-to-table)을 모두 제공하여 유연한 접근 가능. PICO 요소 태깅과 증거 추론(Evidence Inference) 클래스 라벨 자동 생성으로 구조적 일관성 평가 가능.
  3. 기준 모델 개발: BART 기반 seq2seq 모델로 유창한 요약을 생성하되, 생성된 요약이 금표준(gold summary)의 증거 방향과 약 50% 일치하는 수준 달성.

How

Originality

Limitation & Further Study

Evaluation

총평: MS²는 의료 도메인에 다중문서 요약이라는 새로운 NLP 과제를 제시하고 대규모 공개 데이터셋을 제공함으로써 학계의 기여도가 크나, 현재 기준 모델의 성능(증거 방향 일치도 50%)이 실무 적용에는 미흡하며 구조화 정보의 활용 방안이 더욱 발전할 필요가 있다.

같이 보면 좋은 논문

다른 접근
의료 체계적 문헌검토와 컴퓨터과학 관련업무 생성이라는 서로 다른 도메인의 다중문서 요약 데이터셋
다른 접근
관련업무 섹션 생성과 의료 체계적 문헌검토라는 다른 학술 도메인의 다중문서 요약 접근
후속 연구
의학 연구 다중 문서 요약에서 일반적인 학술 논문으로 적용 범위를 확장한다
후속 연구
의료 분야 다중문서 요약을 검색-증강 생성 파이프라인으로 확장한 방법론적 발전
← 목록으로 돌아가기