How do humans and language models reason about creativity? a comparative analysis

저자: Antonio Laverghetta Jr., Tuhin Chakrabarty, Tom Hope, Jimmy Pronchick, Krupa Bhawsar, Roger E. Beaty | 날짜: 2025 | DOI: arXiv:2502.03253v2


Essence

Figure 3

인간과 GPT-4O-MINI의 창의성 점수 비교

본 논문은 STEM 분야의 창의성 평가에서 인간 전문가와 대규모 언어모델(LLM)이 어떻게 다르게 추론하는지를 비교 분석한다. 예시 제공 여부에 따른 창의성 평가 방식의 변화를 통해 인간과 AI의 인지 메커니즘과 편향의 차이를 규명한다.

Motivation

Achievement

Figure 1

인간 피어슨 상관계수 비교

Figure 2

LLM 피어슨 상관계수 비교

  1. 인간의 인지 과정의 차별화:
    • 예시 미제공 전문가: 비교 언어("더 나음/못함") 과다 사용, 참신성 강조 → 메모리 검색 기반 비교 의존
    • 예시 제공 전문가: 더 정교한 평가 설명, 다양한 평가 기준 고려
    • 같은 수준의 정확도에도 불구하고 인지 프로세스 상이
  2. LLM의 동질화된 평가 메커니즘:
    • 예시 미제공: 참신성과 원거리성 우선시 (의미 유사성 기반)
    • 예시 제공: 정확도 향상하나, 세 가지 측면과 참신성 간 상관계수 0.99 이상으로 급증 → 개별 측면의 동질화/구별 불가

How

Figure 4

인간과 GPT-4O-MINI 설명 비교

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 STEM 창의성 평가에서 인간 전문가와 LLM의 인지 메커니즘의 근본적 차이를 체계적으로 규명하는 의미 있는 연구로, 맥락 정보의 영향과 LLM의 동질화 현상이라는 새로운 발견을 제시한다. 다만 표본 규모 확대와 다양한 모델 비교를 통한 일반화 강화가 필요하다.

같이 보면 좋은 논문

기반 연구
인간과 언어모델의 창의성 추론에 대한 연구가 LiveIdeaBench의 발산적 사고 평가 설계에 이론적 기반을 제공한다.
기반 연구
재료 발견과 설계에서 가설 생성을 통한 창의성 연구의 기반입니다.
다른 접근
창의성 평가와 학술 글쓰기에서 인간과 LLM의 상호작용이라는 서로 다른 관점의 비교 연구입니다.
다른 접근
학술 글쓰기에서 인간-LLM 공진화와 창의성 평가 비교라는 서로 다른 상호작용 연구입니다.
후속 연구
LLM의 조합적 창의성을 STEM 분야 창의성 평가로 확장한 연구입니다.
응용 사례
과학적 창의성과 아이디어 생성 능력을 평가하는 벤치마크에 창의성 추론 연구를 적용할 수 있습니다.
← 목록으로 돌아가기