저자: Paulo Henrique Couto, Quang Phuoc Ho, Nageeta Kumari, Benedictus Kent Rachmat, Thanh Gia Hieu Khuong, Ihsan Ullah, Lisheng Sun-Hosoya | 날짜: 2024-06-13 | DOI: 10.48550/arXiv.2406.10294
그림 1: 프롬프트와 논문 간 코사인 유사도 분포. 4개의 관련성 범주별로 명확한 구분이 나타남
본 논문은 대규모 언어 모델(LLM)을 활용하여 학술 논문의 관련성을 자동으로 평가하는 분류 시스템 RelevAI-Reviewer를 제안하고, 25,164개의 인스턴스로 구성된 벤치마크 데이터셋을 공개한다. BERT 기반 종단(end-to-end) 분류기가 기존의 지도학습 방법들을 능가하는 성능을 달성했음을 보였다.
그림 2: 훈련 데이터 크기별 SVC 성능 및 F1-점수
그림 3: 데이터 크기 변화에 따른 BERT(원-핫, Thermometer), SVC의 Kendall's Tau 비교
그림 4: 원-핫 인코딩을 사용한 BERT의 F1-점수
그림 5: Thermometer 인코딩을 사용한 BERT의 F1-점수
총평: 본 논문은 학술 논문 관련성 평가의 자동화를 위한 실용적인 벤치마크를 최초로 제공하며 공개 플랫폼을 통해 커뮤니티 참여를 유도하는 점이 가치있으나, 인공 데이터 생성의 신뢰성 문제와 단일 평가 기준만 다룬 점에서 개선의 여지가 있다.