ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews

저자: Xiaojin Gao, Jiacheng Ruan, Zongyun Zhang, Jingsheng Gao, Ting Liu, Yuzhuo Fu | 날짜: 2025 | 기관: Shanghai Jiao Tong University


Essence

대규모 언어모델(LLM)을 활용하여 학술 논문 심사를 자동화하되, 인간 심사자의 다단계 추론 과정을 모방한 다중 에이전트 프레임워크를 제안한다. 구조화된 사고(Chain-of-Thought) 방식과 관련 논문 인식(relevant-paper-aware) 학습을 통해 AI 생성 심사의 품질을 인간 심사에 가깝게 향상시킨다.

Motivation

Achievement

  1. Review-CoT 데이터셋: ICLR(2017-2024), NeurIPS(2016-2024)의 37,403개 논문과 142,324개 심사 의견을 구조화된 형식으로 정제. 제출 시점까지의 최신 관련 논문 정보를 포함한 최초의 대규모 구조화 심사 데이터셋
  2. ReviewAgents 프레임워크: 세 단계 구조화 추론(요약→분석→결론)을 거쳐 인간 심사자의 인지 과정을 모방하는 다중 역할, 다중 에이전트 심사 시스템. 기존 LLM 기반 접근법 대비 인간 심사와의 정렬도(alignment) 향상
  3. ReviewBench 벤치마크: LLM 생성 심사 의견의 품질을 4개 차원에서 정량적으로 평가하는 전문 벤치마크. 최신 심사 데이터로 구성하여 기존 LLM 사전학습 데이터 오염 문제 회피

How

Figure 1

Figure 1: 사전 정의된 구조화 사고 과정에 따른 심사 의견 변환 프로세스 (요약→분석→결론)

데이터셋 구축

ReviewAgents 프레임워크

학습 및 평가 방법

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 인간 심사자의 구조화된 사고 과정을 체계적으로 모방한 첫 대규모 데이터셋과 다중 에이전트 프레임워크로 AI 심사의 현실화 가능성을 높였다. 다만, 데이터 시간성 문제, 평가 지표의 한계, 실제 심사 제도 도입 시 윤리적·제도적 과제에 대한 보충 논의가 필요하다.

같이 보면 좋은 논문

기반 연구
다중 에이전트 애플리케이션 개발 프레임워크가 학술 심사 에이전트 시스템 구축의 기술적 기반을 제공한다.
다른 접근
다중 에이전트 협업과 단일 모델 기반 다목적 강화학습이라는 서로 다른 AI 심사 접근법을 제시한다.
후속 연구
전문화된 심사 모델을 다중 에이전트 프레임워크로 확장하여 인간 수준의 심사 품질을 달성한다.
후속 연구
AI 생성 심사평의 품질을 다중 에이전트 시스템으로 더욱 향상시키는 방법론을 제시한다.
후속 연구
다중 에이전트 시스템과 다목적 강화학습을 결합하여 더욱 정교한 AI 심사 시스템을 구축할 수 있다.
← 목록으로 돌아가기