SciReviewGen: a large-scale dataset for automatic literature review generation

저자: Tetsu Kasanishi, Masaru Isonuma, Junichiro Mori, Ichiro Sakata | 날짜: 2023 | DOI: 논문 링크


Essence

Figure 1

Figure 1: 문헌 리뷰 생성 작업의 개요. 입력된 논문의 초록과 리뷰/챕터 제목(쿼리)을 통해 문헌 리뷰 텍스트를 생성한다.

본 논문은 자동 문헌 리뷰 생성을 위한 최초의 대규모 데이터셋인 SciReviewGen을 제시한다. 10,000개 이상의 문헌 리뷰와 690,000개의 인용 논문으로 구성되어 있으며, 쿼리 기반 다중 문서 요약(query-focused multi-document summarization) 작업으로 정의한다.

Motivation

Achievement

Table 1

Table 1: SciReviewGen과 기타 다중 문서 요약 데이터셋의 비교. SciReviewGen(split)은 평균 1,274개의 입력 토큰과 604개의 출력 토큰을 가짐.

  1. 최초의 대규모 문헌 리뷰 데이터셋 구축: 9,187개의 학습 샘플, 484개의 검증 샘플, 459개의 테스트 샘플로 구성된 SciReviewGen 릴리스. 챕터 단위로 분할 시 84,705개의 학습 샘플으로 확대.
  2. 기존 데이터셋과 차별화: Multi-XScience(116개 토큰)와 비교하여 약 5.2배 긴 출력(604개 토큰), Multi-News(2,103개)와 비교하여 6배 긴 입력(12,503개 토큰)을 처리하는 더 도전적인 과제 제시.
  3. 자동 및 인간 평가: 약 30%의 생성된 챕터가 인간이 작성한 리뷰와 동등하거나 우수한 수준을 달성하며, 동시에 환각 문제와 정보 부족 등의 한계 명확화.

How

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 자동 문헌 리뷰 생성을 위한 첫 번째 대규모 벤치마크 데이터셋을 제시함으로써 학술 NLP 분야에 중요한 기여를 한다. 다만 생성된 리뷰의 품질 개선과 현실적 적용을 위해서는 환각 문제 해결 및 더 정교한 모델 개발이 필요하다.

같이 보면 좋은 논문

기반 연구
계층적 어텐션 그래프가 과학 문서 요약의 구조적 정보 처리 기반이다.
기반 연구
자동 문헌 리뷰 생성을 위한 대규모 데이터셋이 SurveyX 시스템의 성능 평가와 개선에 필요한 기준점을 제공한다.
다른 접근
문헌 리뷰 자동 생성에서 계층적 구조와 대규모 데이터셋이라는 서로 다른 접근 방식입니다.
다른 접근
자동 문헌 리뷰 생성과 Wikipedia 기사 작성 모두 다중 문서 종합 작업이다.
다른 접근
문헌 리뷰 생성에서 계획 기반 접근법과 대규모 데이터셋 기반 자동 생성이라는 서로 다른 방법론을 사용한다.
다른 접근
문헌 리뷰 생성과 Wikipedia 기사 작성은 모두 다중 문서 종합 작업이다.
후속 연구
학술 문헌 리뷰 생성을 위한 대규모 데이터셋과 신경망 기반 요약 시스템을 결합하여 성능을 향상시킬 수 있다.
후속 연구
지식 그래프 기반 과학 문서 요약으로 문헌 리뷰 생성을 확장한다.
후속 연구
SciReviewGen의 자동 문헌 리뷰 생성 대규모 데이터셋을 실용적 도구로 구현한 연구이다.
후속 연구
과학 리뷰 생성을 위한 대규모 데이터셋을 계층적 요약 방법으로 활용할 수 있습니다.
← 목록으로 돌아가기