Large language models pass the turing test

저자: Cameron R. Jones, Benjamin K. Bergen | 날짜: 2025 | DOI: N/A


Essence

Figure 2

각 AI 증인의 승률(interrogator가 AI 시스템을 인간으로 판단한 비율). 오차막대는 95% 부트스트랩 신뢰구간을 나타냄

본 논문은 현대 대규모 언어모델(LLM)이 튜링 테스트(Turing test)의 세 명 참가자 버전을 최초로 통과했음을 보여주는 실증적 증거를 제시한다. GPT-4.5가 적절한 페르소나(persona) 프롬프트 하에서 73%의 확률로 인간으로 판단되었으며, 이는 실제 인간 참가자보다 유의미하게 높은 비율이다.

Motivation

Achievement

Figure 1

Prolific(a, b & d) 및 학부생(c) 연구의 4가지 게임 예시. 각 패널에서 한 대화는 인간 증인과, 다른 하나는 AI 시스템과 진행됨

  1. GPT-4.5의 튜링 테스트 통과: GPT-4.5-PERSONA는 전체 73% 승률(학부생 69%, Prolific 76%)을 기록하여 실제 인간 참가자보다 유의미하게 높은 비율로 인간으로 판정됨 (p = 0.50, 50% 이상이므로 귀무가설 채택 불가).
  2. LLaMa의 경계선 성능: LLaMa-3.1-405B-PERSONA는 56% 승률(학부생 45%, Prolific 65%)로 인간과 통계적으로 구분되지 않음 (p = 0.08 또는 p = 0.50).
  3. 기저 모델의 실패: GPT-4o-NO-PERSONA(21%)와 ELIZA(23%)는 유의미하게 50% 이하의 승률을 기록하여 조작 점검(manipulation check)으로 기능함.

How

Figure 3-5

Figure 3: Interrogator 정확도 vs 종료 설문 응답 | Figure 4: Interrogator 전략 분류 | Figure 5: Interrogator 사유 분석

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 현대 LLM이 75년간의 도전 과제였던 튜링 테스트를 통과했음을 처음으로 실증적으로 입증한 획기적 연구이며, 엄격한 실험 설계와 통계 방법론을 갖추었으나, 더욱 다양한 표본과 심층적 메커니즘 분석으로 보완될 여지가 있다.

같이 보면 좋은 논문

기반 연구
BERT부터 시작된 트랜스포머 기반 언어모델의 발전이 튜링 테스트 통과라는 이정표에 도달한 역사를 보여준다
기반 연구
튜링 테스트를 통과한 GPT-4의 인간 수준 언어 능력이 이러한 성취의 기술적 기반이다
후속 연구
GPT-4의 인간 수준 성능이 실제 튜링 테스트 통과로 이어지는 AI 발전의 연속성을 보여준다
후속 연구
튜링 테스트 통과 후 AI의 자기 개선 능력에 대한 더 깊은 분석을 제공한다
응용 사례
대규모 언어모델이 튜링 테스트를 통과한다는 일반적 능력을 과학 분야에 적용한 분석입니다.
← 목록으로 돌아가기