저자: Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang 외 40명 | 날짜: 2024 | DOI: 10.48550/arXiv.2401.05561
본 논문은 대규모 언어모델(Large Language Models, LLMs)의 신뢰성을 종합적으로 평가하기 위한 원칙 기반의 벤치마크 TrustLLM을 제시한다. 진실성, 안전성, 공정성, 견고성, 프라이버시, 기계윤리 등 6가지 핵심 차원에서 16개 주요 LLM을 평가하여 신뢰성의 다층적 특성을 규명한다.
그림 1: TRUSTLLM에서 16개 LLM의 신뢰성 성능 순위카드
그림 2: TRUSTLLM 벤치마크 설계
평가 방법론:
한계:
후속 연구 방향:
총평: 본 논문은 LLM 신뢰성에 대한 최초의 포괄적이고 원칙 기반의 벤치마크를 제시하여, AI 안전성과 신뢰성 연구에 중대한 기여를 한다. 8개 차원에 걸친 체계적 평가와 16개 모델에 대한 대규모 실증 연구는 큰 의미가 있으나, 평가 메트릭의 일부 주관성과 문화적 다양성 부족이 개선 과제이다. 오픈 액세스 제공으로 커뮤니티 기여 활성화 가능성이 높다.