저자: Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou | 날짜: 2023-10-03 | DOI: 10.48550/arXiv.2310.01783
본 논문은 GPT-4를 활용한 대규모 실증 분석을 통해 LLM이 학술 논문에 대해 유용한 피드백을 제공할 수 있는지 체계적으로 평가한 첫 번째 연구이다. Nature 저널 3,096편과 ICLR 1,709편의 논문을 분석한 결과, GPT-4의 피드백이 인간 리뷰어들의 의견과 비슷한 수준의 일치도를 보였으며, 308명의 연구자 설문 조사에서 57.4%가 유용하다고 평가했다.
총평: 본 논문은 LLM의 과학 피드백 생성 능력을 최초로 대규모로 체계적으로 평가한 중요한 연구이다. 다양한 학문 영역의 대규모 데이터셋(4,805편)과 엄밀한 방법론, 그리고 실제 사용자 연구를 결합하여 높은 신뢰도를 확보했으며, 결과적으로 LLM이 인간 리뷰어와 비슷한 수준의 피드백 관점을 포착할 수 있음을 입증했다. 다만 LLM의 심층적 방법론 비판 능력 부족과 특정 양상의 피드백에 대한 편향성은 향후 개선이 필요한 영역이며, 인간-LLM 협력 모델의 개발이 실질적 의의를 가질 것으로 예상된다.