Can large language models provide useful feedback on research papers? A large-scale empirical analysis

저자: Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou | 날짜: 2023-10-03 | DOI: 10.48550/arXiv.2310.01783


Essence

본 논문은 GPT-4를 활용한 대규모 실증 분석을 통해 LLM이 학술 논문에 대해 유용한 피드백을 제공할 수 있는지 체계적으로 평가한 첫 번째 연구이다. Nature 저널 3,096편과 ICLR 1,709편의 논문을 분석한 결과, GPT-4의 피드백이 인간 리뷰어들의 의견과 비슷한 수준의 일치도를 보였으며, 308명의 연구자 설문 조사에서 57.4%가 유용하다고 평가했다.

Motivation

Achievement

  1. LLM 피드백과 인간 피드백의 비교 가능성: Nature 저널에서 GPT-4 피드백의 30.85%가 개별 인간 리뷰어의 의견과 일치했으며, 이는 두 인간 리뷰어 간의 일치도(28.58%)와 유사한 수준. ICLR의 경우 GPT-4 39.23% vs 인간 리뷰어 간 35.25%로 더 높은 일치도를 보임.
  2. 약한 논문에 대한 더 높은 일치도: ICLR 거절 논문의 경우 GPT-4와 인간 리뷰어 간 일치도가 43.80%로 더 높음. 이는 LLM이 품질 문제가 명확한 논문에서 더 효과적임을 시사.
  3. 사용자 인식 조사 결과: 57.4%의 연구자가 GPT-4 피드백을 '유용' 또는 '매우 유용'으로 평가했으며, 82.4%는 일부 인간 리뷰어의 피드백보다 더 도움이 된다고 응답.
  4. 광범위한 피드백 범위: 57.55%(Nature) ~ 77.18%(ICLR)의 GPT-4 댓글이 최소한 한 명의 인간 리뷰어에 의해서도 제기되어 상당한 중복도를 입증.

How

Originality

Limitation & Further Study

Evaluation

Novelty: 5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4.5/5 Overall: 4.5/5

총평: 본 논문은 LLM의 과학 피드백 생성 능력을 최초로 대규모로 체계적으로 평가한 중요한 연구이다. 다양한 학문 영역의 대규모 데이터셋(4,805편)과 엄밀한 방법론, 그리고 실제 사용자 연구를 결합하여 높은 신뢰도를 확보했으며, 결과적으로 LLM이 인간 리뷰어와 비슷한 수준의 피드백 관점을 포착할 수 있음을 입증했다. 다만 LLM의 심층적 방법론 비판 능력 부족과 특정 양상의 피드백에 대한 편향성은 향후 개선이 필요한 영역이며, 인간-LLM 협력 모델의 개발이 실질적 의의를 가질 것으로 예상된다.

같이 보면 좋은 논문

기반 연구
LLM을 이용한 대규모 과학 논문 리뷰 탐구 연구가 GPT-4 피드백 유용성 평가의 기초가 되었다.
기반 연구
GPT-4의 논문 피드백 유용성 연구가 자동화된 검토 시스템 개발의 기초적 검증을 제공했다.
다른 접근
논문 리뷰 생성에서 GPT-4 직접 평가와 LLM 추론 기반 자동 생성이라는 다른 접근법을 사용한다.
후속 연구
GPT-4 피드백 연구를 논문 작성-검토-수정의 완전한 연구 사이클로 확장하여 자동화했다.
← 목록으로 돌아가기