저자: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah | 날짜: 2025 | DOI: arXiv:2503.15772v2
본 논문은 동료평가(peer review) 과정에 대규모언어모델(LLM)이 부정적으로 사용되는 것을 탐지하기 위해 간접 프롬프트 주입(indirect prompt injection) 기법을 통해 워터마크를 삽입하고, 통계적으로 엄밀한 검증 방법으로 LLM 생성 리뷰를 검출하는 시스템을 제안한다.
리뷰 탐지의 3단계 프로세스: 워터마킹 → 간접 프롬프트 주입 → 통계 검증
총평: 동료평가 무결성이라는 중요한 현안에 대해 통계적으로 형식화된 워터마킹 검증 방법을 최초로 제시하며, 대규모 리뷰 평가 시 다중검정 문제를 체계적으로 해결한 기여도 높은 논문이다. 다만 실제 조직 배포 시 윤리적·기술적 고려사항 및 LLM 진화에 따른 지속 가능성에 대한 심화 논의가 필요하다.