저자: Uwe Peters, Benjamin Chin-Yee | 날짜: 2025-03-28 | DOI: 10.48550/arXiv.2504.00025
대규모 언어모델(LLM)이 과학 연구를 요약할 때 원문보다 과도하게 광범위한 결론을 도출하는 체계적인 편향을 가지고 있으며, 이는 대규모 과학 오독의 위험을 초래한다. 10개의 주요 LLM을 대상으로 4,900개의 요약을 분석한 결과, LLM 요약이 인간 작성 요약보다 약 5배 더 높은 확률로 과도한 일반화를 포함했다.
Figure 1: LLM별 접근 방식(API, UI), 프롬프트, 온도 설정에 따른 요약 검색 수 개요
총평: 이 논문은 LLM 기반 과학 요약의 과도 일반화 편향을 처음으로 대규모 실증적으로 입증한 중요한 연구이며, 특히 의료·공중보건 영역에서의 LLM 신뢰성에 대한 중대한 우려를 제기한다. 다만 일반화 타당성의 규범적 기준 부재, 완화 전략의 효과 검증 미흡, 인코딩 신뢰도 보고 부족 등이 기술적 강건성을 다소 제약하며, 추가 연구를 통한 보완이 필요하다.