Which stylistic features fool ChatGPT research evaluations?

저자: Kayvan Kousha, Mike Thelwall | 날짜: 2026-03-16 | URL: https://arxiv.org/abs/2603.14919


Essence

ChatGPT는 연구 품질 평가 시 실제 연구 품질과 무관한 언어적 복잡성과 초록 길이에 과도하게 영향을 받으며, 이는 인간 전문가의 평가와 다른 편향된 패턴을 보여준다.

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 ChatGPT의 연구 평가에서 나타나는 체계적 편향을 경험적으로 입증하여 AI 기반 평가 시스템의 신뢰성 문제를 제기하며, 실무적으로 LLM 기반 연구 평가 도입 시 주의해야 할 점을 명확히 제시한다.

같이 보면 좋은 논문

기반 연구
통계적 편향의 근본 문제가 AI 기반 연구 평가 시스템의 편향으로 확장되는 이론적 기초를 제공한다.
다른 접근
연구 평가에서 나타나는 편향을 AI 관점에서 분석하여 성별 차별과는 다른 평가 편향 유형을 보여준다.
후속 연구
연구 평가의 편향 문제를 통계적 유의성뿐만 아니라 AI 평가 시스템의 언어적 편향까지 확장했다.
반론/비판
LLM 기반 연구 분석 도구의 한계와 편향을 지적하여 방법론적 주의점을 제시한다.
반론/비판
LLM 기반 연구 분석의 편향 문제를 지적하여 방법론적 한계를 보완할 필요성을 제시한다.
← 목록으로 돌아가기