Vulnerability of text-matching in ml/ai conference reviewer assignments to collusions

저자: Jhih-Yi Hsieh, Aditi Raghunathan, Nihar B. Shah | 날짜: 2024 | DOI: N/A


Essence

ML/AI 학술대회의 자동화된 심사위원 배정 시스템에서 텍스트 매칭(text-matching) 알고리즘이 담합(collusion) 공격에 취약함을 입증한다. SPECTER 임베딩 기반의 유사도 계산이 공모하는 저자와 심사위원에 의해 조작될 수 있으며, 이를 통해 심사위원의 순위를 101위에서 상위 5위로 올릴 수 있음을 보였다.

Motivation

Achievement

Figure 1: 공격 절차의 예시 - 심사위원의 논문 선별 행동(1a)과 저자의 초록 수정 행동(1b)

담합하는 저자와 심사위원의 협력 공격 메커니즘 illustration

  1. SPECTER 알고리즘의 취약성 입증: NeurIPS 2023 데이터에서 제안 공격이 92% 성공률로 심사위원 순위를 101위→상위5위로 상향. 최대값 풀링(max pooling) 사용 시 더욱 취약(49% vs. 평균값 32%).
  2. 크로스 연도 예측 가능성: NeurIPS 2022(공개 데이터)와 2023(미공개 데이터) 간 유사도 순위의 강한 상관관계(r=0.62~0.93) 발견. 공격자가 과거 데이터로 성공 가능성 사전 평가 가능.
  3. 프로필 선별 기반 공격: 심사위원이 자신의 과거 논문을 선택 가능한 경우, 단 1개의 가장 유사한 논문만 선택하면 추상 수정 없이도 41% 성공률 달성.
  4. 탐지 가능성의 이중성: 인간 피험자가 공격된 추상을 더 자주 지적(coherence/consistency 문제)하나, 정상 추상도 상당 비율 지적받음(plausible deniability 제공).

How

Figure 4: 심사위원이 보유할 논문 개수별 공격 성공률 변화

프로필 선별(adversarial curation)에 따른 성공률 편차

Figure 5: 2022년과 2023년 NeurIPS의 조작된 순위 강한 상관관계

과거 데이터로 미래 공격 성공률 예측 가능성

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

총평: 이 논문은 자동화된 학술 심사 시스템의 텍스트 매칭 기반 심사위원 배정이 예상외로 담합에 취약함을 처음 입증하며, NeurIPS 실제 데이터로 92% 공격 성공률을 달성했다. 이미 OpenReview 등 주요 플랫폼에 보안 개선이 적용되어 실질적 영향력을 발휘하고 있는 중요한 보안 연구이다.

같이 보면 좋은 논문

기반 연구
AI 학술대회 리뷰 위기의 근본 원인 중 하나가 자동 심사위원 배정 시스템의 취약성이다
기반 연구
심사위원 배정 시스템 취약점이 OpenReview 플랫폼 보호 필요성을 뒷받침하는 구체적 근거가 된다
후속 연구
학술 시스템 보안에서 870은 심사위원 배정, 104는 LLM 리뷰어 조작으로 공격 벡터를 확장한다
후속 연구
둘 다 학술 리뷰 시스템의 보안 취약점을 다루지만 104는 LLM 리뷰어 조작, 870은 심사위원 배정 시스템 조작을 분석한다
응용 사례
OpenReview 플랫폼 보호 필요성을 뒷받침하는 구체적인 보안 위험 사례를 제공한다
← 목록으로 돌아가기