저자: Zachary Robertson | 날짜: 2023 | URL: https://arxiv.org/abs/2307.05492
Figure 1: Mean Helpfulness Ratings of GPT and Human Reviews. The bar chart illustrates the mean
GPT-4가 피어리뷰(peer-review) 보조 도구로서 인간 리뷰어와 유사한 수준의 도움을 제공할 수 있는지를 파일럿 연구를 통해 조사한 논문이다.
Figure 1: Mean Helpfulness Ratings of GPT and Human Reviews. The bar chart illustrates the mean
총평: 이 파일럿 연구는 학술 피어리뷰에 AI를 활용할 수 있는 가능성을 최초로 실증적으로 탐색했다는 점에서 의의가 있으나, 극도로 제한된 샘플 크기(n=9)와 설계상의 여러 편향으로 인해 강한 결론을 도출하기 어렵다. GPT의 높은 분산성과 문장 수준 오류 감지 부족은 현재 상태에서는 독립적인 리뷰 도구보다는 인간 리뷰의 보조 수단으로만 활용 가능함을 시사한다.