저자: Fabrizio Gilardi, Meysam Alizadeh, Maël Kubli | 날짜: 2023-07-25 | DOI: 10.1073/pnas.2305016120
그림 1: 네 가지 데이터셋에서 ChatGPT의 영점 샷(zero-shot) 텍스트 주석 성능 비교. ChatGPT의 정확도(accuracy)는 대부분의 작업에서 MTurk를 능가하며, 모든 작업에서 코더 간 합의도(intercoder agreement)가 MTurk와 훈련된 주석자를 초과함.
ChatGPT는 텍스트 주석 작업에서 크라우드 워커(crowd workers)를 평균 25 percentage point 초과하는 정확도로 능가하며, 훈련된 주석자 수준의 코더 간 합의도를 달성하면서도 MTurk 대비 약 30배 저렴한 비용으로 수행 가능함을 입증하는 연구이다.
총평: 본 논문은 ChatGPT가 텍스트 주석 작업에서 크라우드 소싱을 실질적으로 대체 가능함을 최초로 체계적으로 입증한 중요한 실증 연구로, NLP 연구 커뮤니티의 실무 방식 전환을 촉발할 시사점이 있으나, 다언어 성능과 장기적 신뢰성에 대한 추가 검증이 필요하다.