Predicting field experiments with large language models

저자: Yaoyu Chen, Yuheng Hu, Yingda Lu | 날짜: 2025 | DOI: 미제공


Essence

대규모 언어 모델(LLM)을 이용하여 경제학 문헌의 현장 실험(field experiment) 결과를 자동으로 예측하는 프레임워크를 제안하고, 276개 실험에서 78%의 예측 정확도를 달성했다.

Motivation

Achievement

Figure 1: The Data Collection Workflow

논문 수집 및 필터링 과정: 6,544개 논문에서 최종 276개의 현장 실험 선정

  1. 대규모 자동화 평가: 2000-2024년 경제학 주요 저널 276개 논문(1,261개 결론)에서 78% 평균 예측 정확도 달성 - 기존 소규모 수동 방식의 한계 극복
  2. 이분포/왜도 특성 발견: 예측 결과가 양극단 분포 - 71%의 결론에서 거의 100% 정확도, 18%에서는 거의 0% 정확도로 나타나, 특정 주제에 대한 LLM의 근본적 한계 시사
  3. 데이터 누수 방지 및 복잡성 증대: Claude(추출/검증용)와 GPT(예측용) 분리 사용, 인간-객체 상호작용 포함 복잡한 처치 설계 지원

How

Figure 2: Prediction Framework

3단계 프레임워크: 정보 추출(Claude) → 변형 생성(Claude) → 예측(GPT)

프레임워크 구성:

주요 특징:

Originality

Limitation & Further Study

한계:

후속 연구:

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 현장 실험 예측이라는 새로운 도메인으로 LLM 시뮬레이션을 확장하고 대규모 자동화 평가를 통해 실질적 적용 가능성을 보였으나, LLM의 근본적 한계(복잡한 사회 이슈 처리 부족)가 명확하여 실무 적용 시 주의가 필요한 연구이다.

같이 보면 좋은 논문

기반 연구
멀티모달 인컨텍스트 학습의 영향 요인 분석이 현장 실험 예측에서 LLM 성능 이해에 필수적
후속 연구
심리학 실험 재현에서 경제학 현장 실험 예측으로 LLM의 인간 행동 모델링 응용 범위 확장
후속 연구
경제학 현장 실험 예측을 AI 연구 결과 예측으로 확장하여 LLM의 과학적 예측 능력 범위 확대
← 목록으로 돌아가기