Cited text spans for citation text generation

저자: Xiangci Li, Yi‐Hui Lee, Jessica Ouyang | 날짜: 2023 | DOI: N/A


Essence

Figure 1

Overview of the proposed CTS-based citation generation approach. Context, Oracle, Keyword 전략을 통해 인용 논문에서 CTS를 검색하고 인용 텍스트를 생성

과학 논문의 인용 텍스트 자동 생성을 위해 기존의 초록(abstract)만 사용하는 방식 대신, 실제 인용되는 특정 텍스트 구간(Cited Text Span, CTS)을 활용하여 더 정확하고 충실한 인용 생성이 가능함을 보여준다. 이를 위해 원가(distant labeling)를 통해 대규모 CTS 데이터셋을 구축하고, 실용적인 키워드 기반 CTS 검색 방법을 제안한다.

Motivation

Achievement

Figure 2

원가 레이블링 CTS는 상위 40개 문장에서 CL-SciSumm의 80%, AbuRa'ed의 95% 인간 주석 CTS를 커버

Figure 4

원가 레이블링 CTS(실선)는 인간 주석 CTS(점선)보다 높은 ROUGE-L 리콜 성능 달성

  1. 원가 레이블링의 효과성: ROUGE 기반 원가 레이블링이 인간 주석과 비슷한 수준의 충실성(QuestEval, ANLI 평가)을 보이면서도 더 높은 토큰 오버랩을 달성했다. 이는 하나의 인용에 대해 여러 개의 타당한 CTS가 존재할 수 있음을 시사한다.
  2. 다운스트림 작업 성능: 원가 레이블링 CTS로 학습한 모델이 인간 주석 CTS 기반 모델과 비슷하거나 더 우수한 인용 생성 성능(BLEU, METEOR, ROUGE-L)을 달성했으며, CL-SciSumm 데이터셋에서는 오히려 우월했다.
  3. 실용적 가능성: 초록 기반 접근법 대비 CTS 기반 인용 생성으로 명백히 개선된 충실성과 정확도를 입증함으로써, 전체 논문 텍스트 기반 인용 생성의 타당성 확보했다.

How

Figure 1

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 인용 생성 시스템에서 초록의 한계를 지적하고 CTS 기반 접근의 타당성을 체계적으로 입증한 가치 있는 연구이다. 원가 레이블링으로 수작업 주석의 부담을 경감한 점이 실무적 기여도 크다. 다만 완전 자동화된 CTS 검색 실현 및 대규모 생성 모델과의 통합 검증이 보완되면 영향력이 더욱 증대될 것으로 기대된다.

같이 보면 좋은 논문

기반 연구
과학 문헌에서 특정 텍스트 검색과 활용이라는 공통 기반 기술을 다룹니다.
다른 접근
인용 텍스트 생성에서 텍스트 스팬 활용과 의도 기반 제어라는 서로 다른 접근 방식을 비교할 수 있습니다.
다른 접근
인용 텍스트 생성에서 제어 가능성과 텍스트 스팬 활용이라는 서로 다른 접근법을 제시합니다.
다른 접근
인용 텍스트 생성에서 로컬 인용과 텍스트 스팬이라는 서로 다른 정보 단위를 활용합니다.
다른 접근
논문 간 관계 설명과 개별 인용 텍스트 스팬 활용이라는 서로 다른 관점을 제시합니다.
후속 연구
인용 텍스트 생성을 위한 인용된 텍스트 스팬 연구가 본 논문의 양방향 이익 구조를 세밀한 인용 관계 모델링으로 발전시킨다.
후속 연구
증거 기반 인용 추천에서 인용될 텍스트 구간을 미리 식별하는 방법론으로 확장 가능합니다.
후속 연구
인용된 텍스트 범위 분석이 로컬 인용 추천 시스템의 정확성과 맥락성을 향상시키는 기반 기술이다.
후속 연구
인용 텍스트 스팬 활용을 해석가능한 증거 기반 인용 추천으로 발전시킨 연구입니다.
← 목록으로 돌아가기