Generating a structured summary of numerous academic papers: Dataset and Method

저자: Shuaiqi Liu, Jiannong Cao, Ruosong Yang, Zhiyuan Wen | 날짜: 2023 | DOI: arXiv:2302.04580


Essence

수천 개의 학술논문을 다수 입력 문서로 하여 구조화된 요약(structured summary)을 자동으로 생성하는 첫 번째 대규모 데이터셋 BigSurvey와 카테고리 기반 정렬 및 희소 트랜스포머(CAST) 방법을 제안한다.

Motivation

Achievement

Figure 1: CAST 방법의 개요. 순차 문장 분류(SSC), 문맥을 고려한 문장 분류(SCC), 카테고리 기반 정렬, 그리고 희소 트랜스포머 기반 요약기로 구성되어 있다.
  1. BigSurvey 데이터셋 구축: 7,123개의 예제를 포함하는 대규모 MDS 데이터셋 구축. BigSurvey-MDS (4,478개 예제)와 BigSurvey-Abs (7,123개 예제)의 2단계 요약 구조로 설계. 평균 76.3개의 입력 문서와 약 12,000단어를 포함하는 기존 데이터셋 대비 매우 큰 규모를 자랑한다.
  2. CAST 방법의 성능: 제안된 CAST 방법이 다양한 선진 추출식(extractive) 및 추상식(abstractive) 요약 기준선 모델들을 능가함을 실험으로 검증. 카테고리 기반 정렬 추가 시 여러 요약 방법의 성능이 추가로 향상됨을 확인.

How

Originality

Limitation & Further Study

Evaluation

총평: BigSurvey 데이터셋과 CAST 방법은 수십 개 학술논문의 구조화된 요약 자동 생성이라는 실질적 문제를 처음으로 체계적으로 다루었으며, 특히 카테고리 기반 정렬을 통해 다양한 출처의 콘텐츠 조직화라는 핵심 과제를 창의적으로 해결한 점에서 높이 평가된다. 다만 모델 아키텍처의 신규성은 제한적이고, 추후 더 큰 사전학습 모델과의 비교 및 다언어 확장 연구가 기대된다.

같이 보면 좋은 논문

기반 연구
다중 논문 요약 시스템의 성능 평가에 인용 추천 벤치마크의 평가 방법론이 필요하다
다른 접근
다중 문서 과학 요약에서 374는 구조화된 요약, 563은 지식그래프 기반 접근법을 사용한다
후속 연구
의학 연구 다중 문서 요약에서 일반적인 학술 논문으로 적용 범위를 확장한다
후속 연구
단일 논문 인용에서 다중 논문 구조화 요약으로 인용 추천 시스템의 평가 범위를 확장한다
응용 사례
다수 학술 논문의 구조화된 요약 생성이 SurveyX 시스템의 자동 서베이 생성 기능을 보완하는 구체적 응용 사례이다.
← 목록으로 돌아가기