저자: Xiaocheng Zhang, Xi Wang, Yifei Lu, Jianing Wang, Zhuangzhuang Ye, Mengjiao Bao, Peng Yan, Xiaohong Su | 날짜: 2024 | DOI: 미제공
TrendFact의 수치 추론을 포함하는 사실 검증 예제: 故宮(자금성)의 나이에 관한 주장과 검증 과정
본 논문은 중국어 기반의 첫 번째 포괄적 사실 검증 벤치마크인 TrendFact를 제시하며, 설명 생성 일관성(ECS)과 핫스팟 인식 능력(HPA)을 평가하는 새로운 메트릭을 도입한다. 추가적으로 동적 증거 증강과 영향도 점수 기반 반복적 자기 성찰을 결합한 FactISR 프레임워크를 제안하여 대형 언어 모델의 사실 검증 성능을 향상시킨다.
TrendFact 구축 프로세스: 주장 수집, 필터링, 증강, 증거 라이브러리 구축 및 다단계 샘플 검토
FactISR의 개요: 반복적 추론 과정을 통한 증거 동적 증강 및 자기 성찰
TrendFact 구축 방법론:
FactISR 방법론:
평가 메트릭 정의:
총평: TrendFact 벤치마크는 중국어 기반 사실 검증에서 설명 생성과 고영향도 사건 처리 능력 평가라는 새로운 차원을 추가하여 의미 있는 기여를 하지만, 제안된 FactISR 방법의 이론적 깊이가 부족하고 영어 기반 연구 커뮤니티와의 연계성이 제한적이라는 점은 개선이 필요하다.