저자: Ege Yiğit Çelik, Selma Tekır | 날짜: 2024 | DOI: N/A
CiteBART의 워크플로우. 노란색과 녹색 예시는 각각 CiteBART-Base와 CiteBART-Global의 작동 방식을 나타낸다.
본 논문은 인용 토큰(citation token)을 마스킹하는 사용자 정의 사전학습을 통해 로컬 인용 추천(Local Citation Recommendation, LCR) 작업을 수행하는 생성형 모델 CiteBART를 제안한다. 기존의 사전-검색 및 재순위(pre-fetch and re-rank) 파이프라인과 달리 엔드-투-엔드 학습 시스템으로 우수한 성능을 달성한다.
올바른 예측(a)과 부정확한 예측(b)을 포함한 정성적 분석 사례.
Global 데이터셋 생성을 위한 대규모 언어 모델(LLM)에 대한 프롬프트 예시.
총평: CiteBART는 LCR 문제에 대한 창의적인 생성형 접근으로서, 특히 대규모 데이터셋에서 우수한 성능을 보이며 실제 응용 가치가 높다. 다만 소규모 데이터셋 성능 한계와 할루시네이션 문제는 추가 개선이 필요하다.