저자: Tianmai M. Zhang, Neil F. Abernethy (University of Washington) | 날짜: 2025 | DOI: arXiv:2505.23824v2
본 논문은 대규모 언어 모델(LLM)을 과학 논문의 비판적 오류 검출 도구로 활용하는 방안을 제시하며, 철회된 arXiv 논문 데이터셋을 바탕으로 추론형 LLM들의 성능과 비용을 평가합니다.
표 2: 다양한 모델들의 문제 식별 개수, 히트율(HR@5), 평균 정밀도(AP@5), 토큰 사용량 및 예상 비용 비교
데이터셋 구축:
평가 방법론:
실험 설정:
총평: 본 논문은 LLM을 동료 심사 보조 도구로 위치지어 책임감 있는 활용을 추구하며, 실제 철회 데이터를 바탕으로 한 실증적 평가와 자동 평가 프레임워크를 제시하여 학술 출판 시스템의 개선에 유의미한 기여를 합니다. 다만 자동 평가 방식의 검증과 도메인 별 일반화 측면에서 추가 연구가 필요합니다.