Language agents mirror human causal reasoning biases

저자: Anthony GX-Chen, Dongyan Lin, Mandana Samiei, Doina Precup, Blake A. Richards, Rob Fergus, Kenneth Marino | 날짜: 2025 | DOI: arXiv:2505.09614


Essence

Figure 1: The Blicket Test

언어 모델이 객체를 기계에 올려놓는 상호작용을 통해 인과관계를 파악해야 하는 블리켓 테스트

언어 모델(LM) 에이전트는 인과관계 추론에서 선언적(disjunctive, OR) 규칙에는 능하지만 결합적(conjunctive, AND) 규칙에서 체계적으로 편향되어 있으며, 이러한 편향이 인간 성인의 인지 편향과 유사함을 보여주는 연구이다.

Motivation

Achievement

Figure 2: Quiz accuracy of various models

다양한 언어 모델들의 선언적/결합적 규칙에서의 정확도: 모든 모델이 결합적 규칙에서 체계적으로 낮은 성능 보임

  1. 선언적 편향 발견: 모든 LM 모델군(GPT-4o, DeepSeek, Gemma 등)이 결합적 규칙보다 선언적 규칙에서 신뢰성 높게 더 나은 성능을 보임. 이는 옳은 탐색 데이터가 주어져도 나타나는 현상으로, 순수한 탐색 비효율의 문제가 아님
  2. 인간과 유사한 편향 패턴: LM의 추론 프로필이 인간 성인의 패턴과 유사하지만 유아/어린이의 패턴(편향 없는 "요람 속의 과학자")과는 다름을 정량적으로 입증
  3. 복합 인과요인: 정보 이득(information gain)과 정확도 간 강한 상관관계(ρ=0.76)를 발견했으나, 동일한 정보 수집 후에도 모델이 결합적 가설을 제거하지 못함
  4. 확장성 있는 개선방법: 테스트 타임 샘플링을 통해 명시적으로 인과 가설을 샘플링하고 제거하도록 프롬프팅하면 선언적 편향이 유의미하게 감소

How

Figure 3: Correlation analysis

모델 성능에 영향을 미치는 요소들: 정보 이득이 가장 강한 양의 상관(ρ=0.76), 탐색 단계 수는 음의 상관(ρ=-0.35)

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 언어 모델의 인과추론 편향을 심리학 패러다임과 연계하여 처음으로 체계적으로 규명하였으며, 인간 행동과의 정량적 비교를 통해 모델이 훈련 데이터의 인지 편향을 상속함을 실증했다. 제안된 가설 제거 방법은 이론적 근거가 명확하고 성능 개선이 유의미하나, 더 복잡한 인과 구조와 다양한 추론 시나리오로의 확장 가능성 검증이 필요하다. 자율 에이전트의 과학적 추론 능력 강화라는 중요한 문제를 다루는 높은 수준의 연구이다.

같이 보면 좋은 논문

기반 연구
AI 에이전트의 인간 유사 인지 편향이 사용자에게 미치는 심리적 영향과 위험의 기반을 제공한다.
기반 연구
AI 에이전트의 인간 유사 인지 편향이 사용자에게 미치는 심리적 영향의 기반을 제공한다.
후속 연구
언어 모델의 인지 편향이 사용자의 실제 뇌 활동과 인지 능력에 미치는 구체적 영향으로 확장된다.
응용 사례
언어 모델의 인지 편향이 사용자의 실제 뇌 활동과 언어 능력에 미치는 구체적이고 측정 가능한 영향을 보여준다.
반론/비판
긴 추론 체인의 발전된 능력과 달리 언어 모델이 여전히 인간과 유사한 인과 추론 편향을 보인다는 한계를 지적한다.
반론/비판
긴 추론 체인의 장점과 달리 언어 모델의 인과 추론에서 발생하는 체계적 편향 문제를 대조적으로 제시한다.
← 목록으로 돌아가기