Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges

저자: Xiao Xiao, Yu-Xuan Su, Sijing Zhang, Zhan Chen, Yadong Chen | 날짜: 2025 | DOI: 10.48550/arXiv.2504.21303


Essence

본 논문은 제한된 샘플 크기 조건에서 대규모언어모델(LLM)을 평가하기 위해 베이지안 추론을 활용한 새로운 방법론을 제시한다. 사전지식(Prior Knowledge)을 통합하여 모델 간 순위를 확률적으로 추정하며, 결정론적 메트릭의 한계를 극복한다.

Motivation

Achievement

  1. 베이지안 확률적 순위 추정: 테스트 모델이 특정 앵커 모델 사이에 위치할 확률을 정량화하여 "모델 X가 기준선을 뛰어넘을 확률" 같은 실행가능한 확률적 진술 제공
  2. 샘플 효율성: 170개 질문에서 50개, 최종 5개까지 축소했을 때도 통계적 견고성 유지 - 기존 방법보다 훨씬 적은 샘플로 신뢰성 있는 구분 달성
  3. 실험 검증: GPT 시리즈(3.5 Turbo, GPT-4, GPT-4o, GPT-4.5, o1, o3-mini-high) 6개 앵커 모델과 5개 테스트 모델(Llama-4-Maverick, DeepSeek-V3 등) 평가에서 기존 방법과의 우월성 입증

How

Figure 1: Anchor Model Performance

6개 앵커 모델의 50개 평가 질문에 대한 성공률 (각 질문당 O=10회 시행)

베이지안 공식화:

질문 세트 구성:

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 LLM 평가의 근본적 도전(소량 샘플, 질문 난이도 편차)을 베이지안 확률 프레임워크로 우아하게 해결한 견고한 연구다. 실제 배포 환경에서의 적용 가치가 높으나, 핵심 가정들(독립성, 선형성, 구간 균등성)에 대한 경험적 검증이 더 필요하며 더 다양한 모델 계열과의 교차 검증을 통해 일반화 가능성을 확인해야 한다.

같이 보면 좋은 논문

기반 연구
LLM 평가에서의 베이지안 접근법이 인간 대체 연구의 통계적 신뢰성 확보에 필수적 방법론
후속 연구
베이지안 LLM 평가 방법론을 OpenAI o1과 같은 고급 추론 모델의 성능 평가에 적용한 확장 연구
응용 사례
제한된 샘플에서의 베이지안 평가 접근법을 의료 LLM이라는 특수 도메인에 적용한 실용적 사례
← 목록으로 돌아가기