저자: Jiho Kim, Sungjin Park, Yeonsu Kwon, Yohan Jo, James H. Thorne, Edward Choi | 날짜: 2023 | DOI: arXiv:2305.06590
Figure 1: FACTKG의 예제 데이터. 주장을 SUPPORTED 또는 REFUTED로 검증하기 위해 DBpedia에서 추출한 트리플(triple)을 증거로 사용
본 논문은 지식 그래프(Knowledge Graph, KG)를 기반으로 사실 검증(fact verification)을 수행하기 위한 첫 번째 대규모 데이터셋 FACTKG를 제시한다. 이 데이터셋은 5가지 추론 유형(One-hop, Conjunction, Existence, Multi-hop, Negation)을 포함하는 108k개의 자연언어 주장으로 구성되어 있다.
Figure 2: FACTKG에서 사용된 두 가지 치환 방법. Entity 치환에서는 원래 주장의 모든 엔터티로부터 4-hop 외부에 위치한 새 엔터티를 선택하며, 양방향 NLI 결과가 모두 contradiction이면 완료한다. Relation 치환에서는 원래 relation과 동일한 엔터티 타입을 갖는 relation을 무작위로 추출하여 치환한다.
Figure 3: Conjunction과 Multi-hop 주장에서 사용되는 그래프 패턴
총평: FACTKG는 KG 기반 사실 검증의 체계적이고 대규모 데이터셋을 제시하여 학문적·실용적 가치가 높으나, 자동화된 데이터 생성 파이프라인의 한계와 언어 다양성 부족으로 인해 개선의 여지가 있다. 그래프 구조를 통한 명확한 추론 과정 제시는 해석 가능성이 중요한 사실 검증 분야에 큰 기여를 한다.