저자: Jingyang Fan, Qianyue Hao, Yong Li, Fengli Xu, Jian Yuan | 날짜: 2024 | DOI: N/A
Figure 1: (a) 핵심 인용(Core Citation) 정의. (b)(c) 핵심 인용과 표면적 인용의 통계적 차이: 키워드 겹침(b)과 주요 텍스트 내 언급 빈도(c)
본 논문은 과학 논문의 인용 예측 문제를 단순한 이진 분류에서 벗어나 핵심 인용(core citations)을 표면적 인용 및 비인용과 구별하는 다단계 분류 문제로 재정의하고, 임베딩 모델과 생성형 LLM을 결합한 하이브리드 워크플로우(HLM-Cite)를 제안한다.
Figure 2: 제안된 HLM-Cite 워크플로우의 구조. (a) 전체 개요: 검색 모듈과 LLM 에이전트 순위 결정 모듈의 두 단계. (b) 검색 모듈의 커리큘럼 파인튜닝: 분류(Stage 1)에서 순위 결정(Stage 2) 태스크로 전이. (c) LLM 에이전트 순위 결정: Guider, Analyzer, Decider의 세 역할 분담
Figure 3: LLM 에이전트 순위 결정 모듈의 사례 연구. Guider의 원샷 학습 예시(2→3→1의 정렬)를 통해 Analyzer와 Decider가 논리적 관계를 추론하고 순위를 결정
Stage 1: 검색 모듈 (Embedding-based Retrieval)
Stage 2: LLM 에이전트 순위 결정 모듈 (Generative LLM-based Reasoning)
총평: 본 논문은 인용 예측 문제를 개념적으로 재정의하고 하이브리드 모델을 통해 실질적인 확장성을 달성한 견실한 연구이다. 특히 100K 후보 집합 처리와 17.6% 성능 개선은 실무적 가치가 높으나, 핵심 인용 정의의 순환성과 LLM 기반 추론의 효율성 개선이 향후 중요한 과제로 남아있다.