저자: Xiao Xiao, Yu-Xuan Su, Sijing Zhang, Zhan Chen, Yadong Chen | 날짜: 2025 | DOI: 10.48550/arXiv.2504.21303
본 논문은 제한된 샘플 크기 조건에서 대규모언어모델(LLM)을 평가하기 위해 베이지안 추론을 활용한 새로운 방법론을 제시한다. 사전지식(Prior Knowledge)을 통합하여 모델 간 순위를 확률적으로 추정하며, 결정론적 메트릭의 한계를 극복한다.
6개 앵커 모델의 50개 평가 질문에 대한 성공률 (각 질문당 O=10회 시행)
베이지안 공식화:
질문 세트 구성:
총평: 본 논문은 LLM 평가의 근본적 도전(소량 샘플, 질문 난이도 편차)을 베이지안 확률 프레임워크로 우아하게 해결한 견고한 연구다. 실제 배포 환경에서의 적용 가치가 높으나, 핵심 가정들(독립성, 선형성, 구간 균등성)에 대한 경험적 검증이 더 필요하며 더 다양한 모델 계열과의 교차 검증을 통해 일반화 가능성을 확인해야 한다.