Sciclaimhunt: A large dataset for evidence-based scientific claim verification

저자: Sujit Kumar, Anshul Sharma, Siddharth Hemant Khincha, Gautam Shroff, Sanasam Ranbir Singh, Rahul Mishra | 날짜: 2025 | DOI: N/A


Essence

본 논문은 과학 논문에서 추출한 대규모 научных 주장 검증 데이터셋 SciClaimHunt와 SciClaimHunt Num을 소개한다. 정치적 주장과 달리 과학적 주장의 검증은 도메인 전문성과 복잡한 기술 용어를 요구하는 고도의 과제이며, 이를 해결하기 위해 87,109개의 주장과 이를 지원하거나 반박하는 과학 논문 증거로 구성된 대규모 데이터셋을 제시한다.

Motivation

Achievement

  1. 대규모 데이터셋 구축: 87,109개의 주장-증거 쌍으로 구성된 SciClaimHunt (훈련/개발/테스트: 87,109/10,884/10,900)와 수치 값을 포함하는 20,319개 주장의 SciClaimHunt Num 데이터셋 제시
  2. 높은 품질 보증: Krippendorff α (0.693-0.784)와 Fleiss kappa (0.699-0.823) 점수를 통해 인간 주석 간 높은 일치도 달성, 유창성(fluency), 원자성(atomicity), 문맥 독립성(decontextualization), 충실성(faithfulness) 4가지 평가 기준 충족
  3. 포괄적 검증: 검색 증강 생성(RAG) 기반 기선 모델과 다중 헤드 어텐션을 활용한 주장-증거 매칭 방법론 제시 및 평가

How

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 과학 주장 검증을 위한 기존의 규모 제한적이고 초록 중심적인 데이터셋의 한계를 실질적으로 해결하며, 결과/토론/결론 섹션을 포함한 전체 논문 컨텍스트와 수치 인식 검증이라는 새로운 평가 차원을 도입함으로써 과학 팩트체킹 연구에 상당한 기여를 할 것으로 기대된다.

같이 보면 좋은 논문

기반 연구
복잡한 주장의 팩트체킹이 과학적 주장 검증 데이터셋 구축의 방법론적 기초를 제공함
기반 연구
설명 가능한 주장 수준 검증이 과학적 주장 검증의 핵심 기술 기반을 제공함
다른 접근
과학적 주장 검증과 약한 지도학습 기반 주장 검증의 서로 다른 접근 방식
후속 연구
일반 의학 주장에서 과학 논문 기반 주장 검증으로 확장된 연구
← 목록으로 돌아가기