Withdrarxiv: A large-scale dataset for retraction study

저자: Delip Rao, Jonathan Young, Thomas G. Dietterich, Chris Callison-Burch | 날짜: 2024 | DOI: [미공개]


Essence

Figure 1

arXiv 초록 페이지에서 추출한 메타데이터 요소

본 논문은 arXiv 플랫폼에서 철회된 14,000개 이상의 논문을 수집한 첫 대규모 철회 연구 데이터셋(WithdrawArXiv)을 제시하며, 철회 이유를 10가지 범주로 분류하는 자동 분류 체계를 개발했다.

Motivation

Achievement

Figure 2

수동 주석 10% 계층화 샘플(총 1,620개)에서 평가한 제로샷 분류 혼동 행렬

  1. WithdrawArXiv 데이터셋 구축: 2024년 9월까지 arXiv 전체 역사에 걸친 16,395개의 철회 논문과 관련 의견을 포함한 첫 대규모 dataset 개발
  2. 철회 이유 분류 체계 개발: 10가지 범주(중대한 오류, 미완성 저작, 오타, 신규성 부족, 행정/법적 문제, arXiv 정책 위반, 다른 출판물에 포함, 표절, 개인적 사유, 미명시)를 식별하고 각 범주별 예제 제시
  3. 높은 정확도의 자동 분류 달성: 가중 평균 F1-score 0.9594로 제로샷 프롬프팅 분류 성능 입증, 특히 "개인적 사유"(1.0)와 "중대한 오류"(0.9967)에서 우수한 성능
  4. WithdrawArXiv-SciFy 릴리스: 과학적 실현가능성 연구, 주장 검증, 자동화된 정리 증명을 위해 파싱된 전체 텍스트 PDF 스크립트를 포함한 확장 데이터셋 공개

How

Figure 3

논문 철회 사유의 분포

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4/5 Clarity: 4.5/5 Overall: 4.4/5

총평: 이 논문은 STEM 분야에서 처음으로 대규모 논문 철회 데이터셋을 제시하고 실용적 자동화 방법론을 제공하여 과학 무결성 연구에 중요한 기여를 하고 있으나, 단일 플랫폼 한정과 분류 세분화 미흡이라는 제한사항이 있다.

같이 보면 좋은 논문

기반 연구
OpenReview 보호 필요성이 arXiv 철회 연구와 함께 학술 출판 플랫폼의 신뢰성 보장 방안을 제시한다.
기반 연구
논문 철회 연구 데이터셋이 게으른 검토 패턴과 논문 품질 문제 간의 관계를 분석하는 기초 자료를 제공한다.
다른 접근
논문 철회 연구와 위키피디아 편집 분석이 학술 콘텐츠의 품질 관리를 위한 서로 다른 데이터 소스를 활용한다.
다른 접근
위키피디아 편집 분석과 논문 철회 연구가 학술 콘텐츠의 품질 관리와 변화 패턴을 서로 다른 플랫폼에서 분석한다.
후속 연구
논문 철회 데이터셋이 동료 검토에서의 게으른 사고 패턴과 논문 품질 문제 간의 상관관계 분석을 가능하게 한다.
응용 사례
철회 논문 데이터셋을 활용하여 LLM 기반 오류 검증 시스템의 실제 성능을 평가할 수 있다.
← 목록으로 돌아가기