저자: Zhumin Chu, Qingyao Ai, Y. L. Tu, Haitao Li, Yiqun Liu | 날짜: 2024 | DOI: N/A
학술지의 동료 평가(peer review) 메커니즘에서 영감을 받아, 여러 대규모 언어모델(LLM)을 평가자로 활용하여 다른 LLM들의 성능을 자동으로 평가하는 프레임워크를 제안한다. 자격 시험으로 신뢰할 수 있는 평가자를 선별한 후 이들의 평가 결과를 집계하여 편향 없는 LLM 평가를 실현한다.
PRE의 전체 아키텍처: 자격 시험 모듈, 평가 모듈, 결과 집계 모듈로 구성
자격 시험 모듈의 과정: 평가 후보자 LLM들의 신뢰성을 사전에 검증
총평: 본 논문은 학술적 동료 평가 원리를 LLM 자동 평가에 창의적으로 도입하여 비용, 편향, 일반화 문제를 동시에 해결하는 실질적인 해결책을 제시한 의미 있는 연구이다. 다만 평가 과제의 다양화와 메커니즘의 이론적 심화를 통해 주장의 보편성을 더욱 강화할 여지가 있다.