OARelatedWork: A large-scale dataset of related work sections with full-texts from open access sources

저자: Martin Docekal, Martin Fajcik, Pavel Smrz | 날짜: 2024 | DOI: arXiv:2405.01930


Essence

Figure 1

전체 관련 업무(Related Work) 섹션을 인용된 논문들과 대상 논문의 전체 텍스트로부터 생성하는 태스크

본 논문은 오픈 액세스 논문의 전체 텍스트를 포함하는 대규모 관련 업무 생성 데이터셋 OARelatedWork를 제시하며, 초록(abstract)만 사용하는 기존 방식에서 벗어나 전체 콘텐츠를 활용한 다중 문서 요약 연구를 추진한다.

Motivation

Achievement

Figure 2

문헌의 계층 구조 파싱 예시: 내부 번호 매기기와 앵커 생성 단계

  1. 대규모 데이터셋 구축: 94,450개의 관련 업무 섹션과 5,824,689개의 고유 참조 논문을 포함한 첫 번째 전체 관련 업무 생성 데이터셋 완성
  2. 성능 향상 실증: 추상적 요약(abstractive)의 추출적 상한(extractive upper bound)이 초록만 사용할 때 대비 전체 콘텐츠 사용 시 ROUGE-2 기준 217% 증가 (PRIMERA 모델 0.08 → 0.15)
  3. 평가 메트릭 개선: BERTScore의 길이 제한 문제를 해결하는 메타-메트릭(meta-metric) 제안 및 인간 판단과의 상관성 검증

How

Figure 3

연구 도메인에 따른 데이터셋 분포의 차이

Originality

Limitation & Further Study

Evaluation

총평: 오픈 액세스 자료만으로 구축한 첫 대규모 관련 업무 데이터셋으로서 학술 요약 분야에 실질적 기여를 하며, 전체 콘텐츠 활용의 이점을 강력히 입증한 점이 주요 강점이다. 다만 자동 파이프라인의 정확성 검증과 다양한 도메인에 대한 확장성 평가가 보완되어야 한다.

같이 보면 좋은 논문

기반 연구
과학 문헌 요약 파이프라인을 위한 관련업무 생성 데이터셋의 기반 자료
다른 접근
관련업무 섹션 생성과 의료 체계적 문헌검토라는 다른 학술 도메인의 다중문서 요약 접근
다른 접근
의료 체계적 문헌검토와 컴퓨터과학 관련업무 생성이라는 서로 다른 도메인의 다중문서 요약 데이터셋
후속 연구
관련업무 생성을 넘어 전체 과학 질문 답변 시스템으로 확장한 포괄적 문헌 합성 연구
← 목록으로 돌아가기