Cchall: A novel benchmark for joint cross-lingual and cross-modal hallucinations detection in large language models

저자: Yongheng Zhang, Xu Liu, Ruoxi Zhou, Qiguang Chen, Hao Fei, Wenpeng Lü, Libo Qin | 날짜: 2025 | DOI: 10.48550/arXiv.2505.19108


Essence

Figure 1

그림 1: (a) 교차-언어 환각(cross-lingual hallucination) - "stand"를 "站在"로 오역, (b) 교차-모달 환각(cross-modal hallucination) - 존재하지 않는 "bridge" 생성, (c) 교차-언어 및 교차-모달 환각의 결합

본 논문은 대규모 언어 모델(LLM)이 교차-언어 및 교차-모달 상황에서 동시에 겪는 환각(hallucination) 문제를 평가하기 위한 새로운 벤치마크 CCHall(Cross-lingual and Cross-modal Hallucinations)을 제시한다. 기존 연구가 단일 시나리오(교차-언어 또는 교차-모달)에만 집중한 반면, 이 연구는 두 문제가 결합된 실제 상황을 평가하는 최초의 종합 벤치마크를 개발했다.

Motivation

Achievement

Figure 2

그림 2(a): 다양한 환각 유형에 대한 MLLM의 F1-점수 성능 분석, (b): 기존 벤치마크와 CCHall의 비교

  1. 최초의 결합 벤치마크 제시: 교차-언어 및 교차-모달 환각을 동시에 평가하는 최초의 벤치마크 CCHall을 개발했으며, 기존 벤치마크(XL-Sum, CHAIR, POPE 등)는 한 가지 시나리오만 다룬다.
  2. 포괄적 평가 결과: InternVL2-8B(65.9%), Llama-3.2-11B-Vision(46.2%), Qwen2-VL-7B(38.7%) 등 다양한 규모의 모델을 평가하여, 현재 MLLM들이 결합된 환각에 여전히 어려움을 겪고 있음을 입증했다.
  3. 완화 전략의 차별화된 효과성: 소규모 모델(<12B)에는 기본 전략이, 대규모 모델에는 고급 전략(다중언어 문맥, 도구 보조)이 더 효과적임을 입증했다.

How

Figure 3

그림 3: CCHall 구성 과정 - (a) 원본 다중모달 데이터셋 선택, (b) 교차-모달 환각 데이터 구성, (c) 교차-언어 환각 데이터 구성, (d) 결합된 벤치마크

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

총평: CCHall은 기존 연구의 명확한 갭을 식별하고 실제 응용에서 중요한 결합 환각 문제를 평가하는 최초의 벤치마크로, 높은 실용성과 학문적 가치를 제공한다. 다만 자동 환각 생성 방법론의 검증과 메커니즘 분석이 보강되면 더욱 강력한 자료가 될 수 있다.

같이 보면 좋은 논문

기반 연구
LLM 공유 환각 현상이 교차-언어/모달 환각 벤치마크의 이론적 기반이다.
다른 접근
교차-언어/모달 환각과 LLM 생성 리뷰 탐지 모두 AI 생성 콘텐츠 신뢰성을 다룬다.
다른 접근
LLM 생성 콘텐츠 탐지에서 리뷰 검출과 환각 탐지의 다른 접근법이다.
후속 연구
다국어 자연어 이해에서 일관성 정규화가 교차-언어 환각 완화에 활용된다.
← 목록으로 돌아가기