When reviewers lock horn: Finding disagreement in scientific peer reviews

저자: Sandeep Kumar, Tirthankar Ghosal, Asif Ekbal | 날짜: 2023 | DOI: N/A


Essence

Figure 1

Figure 1: 리뷰어 간 모순의 예시 - Reviewer 1은 증거가 강하고 충분하다고 평가하지만, Reviewer 2는 그 증거에 회의적

본 논문은 과학 논문의 피어 리뷰 과정에서 리뷰어 간의 모순(disagreement)을 자동으로 탐지하는 새로운 과제를 제시하고, 이를 위한 대규모 데이터셋 ContraSciView와 기준 모델을 제안한다.

Motivation

Achievement

Figure 2

Figure 2: 측면별 모순 주석 통계 - Clarity 측면에서 가장 많은 모순 발생

  1. 첫 번째 자동화 작업 수행: 피어 리뷰 모순 탐지를 처음으로 정형화하고 자동 탐지 시스템 개발. 이는 학술 출판 분야의 AI 적용 범위를 확장함.
  2. 고품질 대규모 데이터셋 구축: 8.5k 논문, 25.8k 리뷰, 28.5k 리뷰 쌍으로 구성된 ContraSciView 데이셋 공개. 4년 이상 연구 경험을 가진 박사과정 학생 6명과 10년 이상 경험의 전문가 2명이 주석 작성(Cohen's kappa = 0.62, substantial agreement).
  3. 리뷰어 간 불일치 패턴 분석: Clarity 측면에서 가장 많은 모순(전문성, 도메인 지식, 언어 능력 차이 등), Replicability와 Meaningful Comparison에서는 적은 모순 발견.

How

Figure 3

Figure 3: 제안된 기준 모델의 흐름도 - SDAP(Sentiment Disparity Aspect Pair) 추출 후 모순 여부 판정

데이터셋 구축 방법

주석 프로세스

기준 모델 구조

Originality

Limitation & Further Study

Evaluation

총평: 피어 리뷰 프로세스에서 리뷰어 간 모순을 자동으로 탐지하는 새로운 과제를 개척한 의의 있는 연구로, 정교하게 구축된 고품질 데이터셋과 현실적 적용 가치가 강점이다. 다만 기준 모델의 기술적 혁신이 제한적이고, 평가 분석의 깊이를 높인다면 학술 출판 커뮤니티의 큰 관심을 받을 수 있을 것으로 판단된다.

같이 보면 좋은 논문

기반 연구
AI 컨퍼런스 피어리뷰 위기와 저자 익명성 문제가 리뷰어 간 모순 탐지 연구의 배경적 동기를 제공한다.
다른 접근
DeepReview의 인간형 논문 리뷰 개선과 리뷰어 간 모순 탐지는 모두 피어리뷰 품질 향상을 위한 서로 다른 접근법이다.
후속 연구
다중 턴 장문맥 대화로서의 피어리뷰 연구를 리뷰어 간 disagreement 탐지라는 구체적 문제로 확장한 연구이다.
응용 사례
대규모 언어모델의 리뷰 생성 능력 탐구를 리뷰어 간 모순 자동 탐지라는 실용적 문제에 적용한 연구이다.
← 목록으로 돌아가기