Generalization Bias in Large Language Model Summarization of Scientific Research

저자: Uwe Peters, Benjamin Chin-Yee | 날짜: 2025-03-28 | DOI: 10.48550/arXiv.2504.00025


Essence

대규모 언어모델(LLM)이 과학 연구를 요약할 때 원문보다 과도하게 광범위한 결론을 도출하는 체계적인 편향을 가지고 있으며, 이는 대규모 과학 오독의 위험을 초래한다. 10개의 주요 LLM을 대상으로 4,900개의 요약을 분석한 결과, LLM 요약이 인간 작성 요약보다 약 5배 더 높은 확률로 과도한 일반화를 포함했다.

Motivation

Achievement

Figure 1

Figure 1: LLM별 접근 방식(API, UI), 프롬프트, 온도 설정에 따른 요약 검색 수 개요

  1. 광범위한 알고리즘적 과도 일반화 발견: DeepSeek, ChatGPT-4o, LLaMA 3.3 70B가 각각 26~73% 범위에서 과도 일반화를 나타냈으며, 명시적 정확성 요청 프롬프트에도 불구하고 이 현상이 지속됨
  2. LLM 대 인간 비교: LLM 요약이 인간 전문가 요약(NEJM Journal Watch)보다 광범위한 일반화를 포함할 확률이 약 5배 높음(OR = 4.85, 95% CI [3.06, 7.70], p < 0.001)
  3. 역설적 모델 성능 추세: 새로운 모델들(2025년 3월 테스트)이 기존 모델들(2024년 1월)보다 일반화 정확도에서 더 낮은 성능을 보임. 이는 모델 업데이트가 반드시 다양한 과제에서의 성능 향상으로 이어지지 않음을 시사

How

Originality

Limitation & Further Study

Evaluation

총평: 이 논문은 LLM 기반 과학 요약의 과도 일반화 편향을 처음으로 대규모 실증적으로 입증한 중요한 연구이며, 특히 의료·공중보건 영역에서의 LLM 신뢰성에 대한 중대한 우려를 제기한다. 다만 일반화 타당성의 규범적 기준 부재, 완화 전략의 효과 검증 미흡, 인코딩 신뢰도 보고 부족 등이 기술적 강건성을 다소 제약하며, 추가 연구를 통한 보완이 필요하다.

같이 보면 좋은 논문

기반 연구
학술 글쓰기에서 LLM 침투도 측정이 과학 요약의 일반화 편향 분석의 배경이 된다
기반 연구
LLM의 과학 문헌 내재화 편향이 요약 생성시 과도한 일반화로 발현되는 메커니즘을 설명한다
다른 접근
LLM 글쓰기의 다양성 감소 문제를 373은 과학 요약 편향, 284는 콘텐츠 다양성 관점에서 접근한다
후속 연구
LLM이 과학 문헌을 내재화할 때 생기는 편향이 요약 생성시 과도한 일반화로 나타난다
응용 사례
LLM 침투도 측정 도구가 과학 요약에서 나타나는 일반화 편향 분석에 적용된다
← 목록으로 돌아가기