How deep do large language models internalize scientific literature and citation practices? arXiv preprint arXiv:2504.02767, 2025.

저자: Andres Algaba, Vincent Holst, Floriano Tori, Melika Mobini, Brecht Verbeken, Sylvia Wenmackers, Vincent Ginis | 날짜: 2025 | DOI: N/A


Essence

Figure 1

그림 1: 논문의 제목, 저자, 연도, 학술지, 초록을 기반으로 LLM이 생성한 참고문헌과 인간의 인용 패턴을 비교하는 실험 개요

대규모 언어 모델(LLM)이 과학 논문의 참고문헌 생성 시 이미 인용도가 높은 논문들을 지속적으로 선호함으로써 인용의 마태 효과(Matthew effect)를 강화하며, 이는 학문 영역 간 편향의 차이에도 불구하고 일관되게 나타난다. 이러한 현상은 과학 지식의 발견과 확산 방식을 재형성할 가능성이 있다.

Motivation

Achievement

Figure 3

그림 3: 학문 영역과 시간에 따른 생성 참고문헌의 존재율(existence rate) 및 인용 특성 비교

  1. 마태 효과의 강화(Matthew effect reinforcement): LLM이 생성한 참고문헌 중 실제로 존재하는 참고문헌들(existence rate 42.6%)은 인간의 참고문헌 대비 현저히 높은 중앙값 인용도를 보임. 이는 이미 인용도 높은 논문이 더욱 많은 추가 인용을 받는 누적 우위 현상을 의미하며, 모든 학문 영역과 시간 기간에 걸쳐 일관되게 관찰됨.
  2. 학문 영역별 편차: 인문학과 사회과학에서는 40-50%의 높은 존재율을 보이는 반면, 정확한 과학(exact sciences)에서는 더 낮은 존재율을 나타냄. 이는 인문학과 사회과학이 더 오래된 참고문헌을 인용하는 경향과 관련됨.
  3. 체계적인 인용 편향: LLM은 더 최근의 참고문헌(더 짧은 제목, 더 많은 저자)을 선호하며, 이는 인간의 인용 패턴과 일부 차이를 보임. 의미론적 유사성(textual embedding) 분석 결과, 생성된 참고문헌의 의미적 적절성은 인간의 참고문헌과 비교할 수 있는 수준이나, 네트워크 특성에서는 저자 자기인용을 감소시킴.

How

Figure 4

그림 4: 생성된 참고문헌의 체계적 편향 - 발행연도, 저자 수, 제목 길이 선호도

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 LLM이 과학 참고문헌 생성 시 체계적으로 마태 효과를 강화하며 인간의 인용 관행과 차이를 보인다는 중요한 발견을 대규모 실증 데이터로 제시하여, AI 도입이 과학적 지식 발견의 형태를 재편할 수 있음을 시사한다. 다만 순수 매개변수 지식 기반 평가라는 제한과 학문 영역 표본 편향을 고려할 때, 실제 운영 환경에서의 영향은 추가 검증이 필요하다.

같이 보면 좋은 논문

기반 연구
LLM의 과학 문헌 내재화 편향이 요약 생성시 과도한 일반화로 발현되는 메커니즘을 설명한다
후속 연구
과학적 아이디어 재조합 지식베이스에서 LLM이 기존 고인용 논문을 편향적으로 선호하는 패턴을 보완한다
후속 연구
LLM이 과학 문헌을 내재화할 때 생기는 편향이 요약 생성시 과도한 일반화로 나타난다
반론/비판
정확한 인용 예측 시스템과 달리 LLM이 인용에서 보이는 마태 효과 편향을 지적한다
반론/비판
406은 정확한 인용 예측을 목표로 하지만 410은 LLM이 인용에서 보이는 편향 문제를 지적한다
← 목록으로 돌아가기