How deep do large language models internalize scientific literature and citation practices? arXiv preprint arXiv:2504.02767, 2025.

Essence

그림 1: 논문의 제목, 저자, 연도, 학술지, 초록을 기반으로 LLM이 생성한 참고문헌과 인간의 인용 패턴을 비교하는 실험 개요

대규모 언어 모델(LLM)이 과학 논문의 참고문헌 생성 시 이미 인용도가 높은 논문들을 지속적으로 선호함으로써 인용의 마태 효과(Matthew effect)를 강화하며, 이는 학문 영역 간 편향의 차이에도 불구하고 일관되게 나타난다. 이러한 현상은 과학 지식의 발견과 확산 방식을 재형성할 가능성이 있다.

Motivation

Known: LLM은 수학 문제 해결, 코드 생성 등에서 뛰어난 성능을 보이며, 과학 연구에 빠르게 도입되고 있다. 과학 논문은 최근성(recency) 선호, 짧은 제목 선호, 저명한 학술지 선호 등 다양한 인용 편향을 보이고, 이는 학문 영역에 따라 상이하다.
Gap: LLM이 인간의 인용 관행과 얼마나 일치하는지, 학문 영역별 성능 차이, 기존 인용 동학에 미칠 영향에 대해 명확하지 않다. 특히 LLM의 매개변수 지식(parametric knowledge)만으로 생성한 참고문헌 추천이 어떤 편향을 띠는지 체계적으로 분석된 바가 없다.
Why: LLM이 과학 종합(scientific synthesis)에 점점 더 통합될수록, 그들이 어떻게 과학적 지식 발견과 확산을 형성하는지 이해하는 것이 중요하다. 자동화 편향(automation bias)으로 인해 LLM의 제안이 연구자의 선행 연구 발견 과정을 왜곡할 수 있다.
Approach: SciSciNet 데이터베이스에서 1999-2021년 Q1 학술지의 10,000개 논문을 표본 추출하고, GPT-4o에 각 논문의 초록 정보를 기반으로 참고문헌 생성을 요청(총 274,951개 참고문헌). 생성된 참고문헌의 특성(발행년, 저자 수, 제목 길이, 인용도 등)을 인간이 작성한 참고문헌과 비교 분석.

Achievement

그림 3: 학문 영역과 시간에 따른 생성 참고문헌의 존재율(existence rate) 및 인용 특성 비교

마태 효과의 강화(Matthew effect reinforcement): LLM이 생성한 참고문헌 중 실제로 존재하는 참고문헌들(existence rate 42.6%)은 인간의 참고문헌 대비 현저히 높은 중앙값 인용도를 보임. 이는 이미 인용도 높은 논문이 더욱 많은 추가 인용을 받는 누적 우위 현상을 의미하며, 모든 학문 영역과 시간 기간에 걸쳐 일관되게 관찰됨.
학문 영역별 편차: 인문학과 사회과학에서는 40-50%의 높은 존재율을 보이는 반면, 정확한 과학(exact sciences)에서는 더 낮은 존재율을 나타냄. 이는 인문학과 사회과학이 더 오래된 참고문헌을 인용하는 경향과 관련됨.
체계적인 인용 편향: LLM은 더 최근의 참고문헌(더 짧은 제목, 더 많은 저자)을 선호하며, 이는 인간의 인용 패턴과 일부 차이를 보임. 의미론적 유사성(textual embedding) 분석 결과, 생성된 참고문헌의 의미적 적절성은 인간의 참고문헌과 비교할 수 있는 수준이나, 네트워크 특성에서는 저자 자기인용을 감소시킴.

How

그림 4: 생성된 참고문헌의 체계적 편향 - 발행연도, 저자 수, 제목 길이 선호도

데이터 수집: SciSciNet에서 Q1 저널 논문 10,000개 선별(조건: 1999-2021년 발행, 3-54개 참고문헌, 최소 1회 이상 인용, 유효한 DOI와 초록 보유)
LLM 쿼리: "다음 논문의 제목, 저자, 연도, 학술지, 초록이 주어졌을 때, 이 논문과 관련 있는 n개의 참고문헌을 제시하세요"
검증: Fuzzy matching을 통해 생성된 참고문헌의 존재 여부를 SciSciNet에서 검증(보수적 임계값 적용으로 실제 존재율 저추정 가능성)
비교 분석: 생성 참고문헌과 인간 참고문헌의 인용도, 발행연도, 저자 수, 제목 길이, 의미적 임베딩(cosine similarity), 네트워크 특성(citation network) 비교
통계 분석: 초점 논문(focal paper) 수준에서 Wilcoxon signed-rank 검정 수행

Originality

기존 LLM 벤치마크(fact verification, literature review writing, in-text citation)와 달리 초록 기반의 참고문헌 생성이라는 보다 현실적인 시나리오 설정
매개변수 지식만 활용한 LLM 평가로 검색/검색증강생성(RAG) 기반 접근과 구분하여 LLM의 내재적 편향 분석
마태 효과의 강화를 체계적으로 정량화한 첫 대규모 실증 연구(274,951개 참고문헌, 10,000개 논문)
단순 존재 여부를 넘어 의미론적 적절성, 네트워크 특성, 학문 영역별 편차를 종합적으로 분석
실제 과학 지식 확산 메커니즘에 미칠 영향에 대한 정책적 함의 제시

Limitation & Further Study

실험 환경의 제한성: 현실의 LLM 활용은 외부 데이터 검색, 사용자와의 상호작용을 포함하나, 본 연구는 순수 매개변수 지식만 평가. 따라서 실제 운영 환경에서의 영향은 다를 수 있음.
존재율 저추정 가능성: Fuzzy matching의 보수적 임계값으로 인해 실제 존재하는 참고문헌의 일부가 누락되었을 가능성
학문 영역 대표성 편향: 정확한 과학(특히 의학, 생물학, 화학)에 편중된 표본으로 인문학과 사회과학 결과의 일반화 한계
시간 범위 제한: 1999-2021년으로 제한되어 최근 LLM 발전에 따른 인용 동학 변화 미포착. 최신 모델(GPT-4o 이후)과의 비교 필요
후속 연구: (1) 검색 기능을 활성화한 LLM의 인용 패턴 변화 분석, (2) 실제 연구자의 LLM 활용 추적 연구, (3) 다양한 LLM 모델 간 비교, (4) 인용 피드백 루프의 장기 시뮬레이션, (5) 학문 영역별 미세한 편향 분석

Evaluation

총평: 본 논문은 LLM이 과학 참고문헌 생성 시 체계적으로 마태 효과를 강화하며 인간의 인용 관행과 차이를 보인다는 중요한 발견을 대규모 실증 데이터로 제시하여, AI 도입이 과학적 지식 발견의 형태를 재편할 수 있음을 시사한다. 다만 순수 매개변수 지식 기반 평가라는 제한과 학문 영역 표본 편향을 고려할 때, 실제 운영 환경에서의 영향은 추가 검증이 필요하다.

같이 보면 좋은 논문

기반 연구

Generalization Bias in Large Language Model Summarization of Scientific Research

LLM의 과학 문헌 내재화 편향이 요약 생성시 과도한 일반화로 발현되는 메커니즘을 설명한다

후속 연구

Chimera: A knowledge base of idea recombination in scientific literature

과학적 아이디어 재조합 지식베이스에서 LLM이 기존 고인용 논문을 편향적으로 선호하는 패턴을 보완한다

후속 연구

Generalization Bias in Large Language Model Summarization of Scientific Research

LLM이 과학 문헌을 내재화할 때 생기는 편향이 요약 생성시 과도한 일반화로 나타난다

반론/비판

HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction

정확한 인용 예측 시스템과 달리 LLM이 인용에서 보이는 마태 효과 편향을 지적한다

반론/비판

HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction

406은 정확한 인용 예측을 목표로 하지만 410은 LLM이 인용에서 보이는 편향 문제를 지적한다