저자: Antonio Laverghetta Jr., Tuhin Chakrabarty, Tom Hope, Jimmy Pronchick, Krupa Bhawsar, Roger E. Beaty | 날짜: 2025 | DOI: arXiv:2502.03253v2
인간과 GPT-4O-MINI의 창의성 점수 비교
본 논문은 STEM 분야의 창의성 평가에서 인간 전문가와 대규모 언어모델(LLM)이 어떻게 다르게 추론하는지를 비교 분석한다. 예시 제공 여부에 따른 창의성 평가 방식의 변화를 통해 인간과 AI의 인지 메커니즘과 편향의 차이를 규명한다.
인간 피어슨 상관계수 비교
LLM 피어슨 상관계수 비교
인간과 GPT-4O-MINI 설명 비교
총평: 본 논문은 STEM 창의성 평가에서 인간 전문가와 LLM의 인지 메커니즘의 근본적 차이를 체계적으로 규명하는 의미 있는 연구로, 맥락 정보의 영향과 LLM의 동질화 현상이라는 새로운 발견을 제시한다. 다만 표본 규모 확대와 다양한 모델 비교를 통한 일반화 강화가 필요하다.