저자: Pierre Achkar, Tim Gollub, Martin Potthast | 날짜: 2025 | DOI: arXiv:2505.16349
그림 3: XSum 파이프라인 개요. 참고 논문들을 질문 생성, 검색, 질답 모듈을 거쳐 최종 요약본으로 변환
과학 문헌의 지수적 증가 문제를 해결하기 위해, 검색-증강-생성(RAG) 기반의 모듈식 다중문서 요약(MDS) 파이프라인인 XSum을 제안한다. 질문 생성 모듈과 편집 모듈의 두 가지 혁신적 컴포넌트를 통해 정확하고 인용이 풍부한 과학 문헌 요약을 생성한다.
그림 1, 2: 기존 파이프라인과의 비교. Pipeline 1은 신경망 순위 모델(monoT5), Pipeline 2는 임베딩 기반 검색(SPECTER2) 사용
그림 3: XSum 전체 파이프라인의 상세 흐름
1단계 - 질문 생성 (Question Generation)
2단계 - 문서 전처리 및 검색 (Document Preprocessing & Retrieval)
3단계 - 재순위 지정 (Re-ranking)
4단계 - 질답 생성 (Question Answering)
5단계 - 편집 모듈 (Editor Module)
총평: 과학 문헌의 지수적 증가라는 실질적 문제를 해결하기 위해 질문 생성과 편집 모듈을 결합한 혁신적인 RAG 파이프라인을 제시하며, SurveySum 벤치마크에서 우수한 성능을 보이나, 단일 데이터셋 평가와 편집 모듈의 상세 기술이 제한점이다.