저자: Emily Herron, Junqi Yin, Feiyi Wang | 날짜: 2024-01 | DOI: 10.1109/SCW63240.2024.00017
과학 분야에서 사용되는 대규모 언어모델(LLM)의 신뢰성을 평가하기 위한 포괄적 프레임워크 SciTrust를 제시한다. 다중 평가 방식(객관식 벤치마크, 오픈엔드형 질문, LLM 기반 판정자)을 결합하여 진실성, 환각(hallucination), 아첨(sycophancy) 측면에서 다섯 가지 LLM의 성능을 비교 분석했다.
총평: SciTrust는 과학 도메인에 특화된 LLM 신뢰성 평가의 중요한 기초를 마련하였으며, 공개된 벤치마크와 평가 프레임워크의 가치가 높다. 다만 평가 메트릭 간의 불일치 해결과 모든 신뢰성 측면에 대한 정량적 결과 제시가 필요하다.