CoAuthor: Designing a Human-AI Collaborative Writing Dataset for Exploring Language Model Capabilities

저자: Mina Lee, Percy Liang, Qian Yang | 날짜: 2022-04-29 | DOI: 10.1145/3491102.3502030


Essence

Figure 1

CoAuthor 데이터셋: 63명의 작가와 GPT-3의 4개 인스턴스 간 1445개 쓰기 세션에서 수집된 인간-AI 협력 상호작용

본 논문은 GPT-3의 창작 및 논증적 글쓰기 지원 능력을 탐구하기 위해 설계된 대규모 인간-AI 협력 글쓰기 데이터셋 CoAuthor를 제시하며, 상호작용 데이터셋 분석을 통해 언어 모델의 역량을 HCI 관점에서 체계적으로 이해할 수 있음을 보여준다.

Motivation

Achievement

Figure 2

창작과 논증적 글쓰기에서 높은 및 낮은 무작위성(randomness)의 GPT-3 능력 비교

  1. 포괄적 상호작용 데이터셋 구축: 63명의 작가와 GPT-3의 4개 인스턴스 간 1445개 글쓰기 세션으로부터 수집된 CoAuthor 데이터셋을 제시. 이는 실제 사용자의 자연스러운 상호작용을 기록한 최초의 대규모 인간-AI 협력 글쓰기 데이터셋이다.
  2. 언어 모델 능력의 다각적 분석: 언어 능력(fluency), 아이디어 창출 능력(ideation), 협력 능력(collaboration)의 세 가지 차원에서 GPT-3의 역량을 실증적으로 분석하고, 다양한 "좋은 협력(good collaboration)"의 정의 하에서 모델의 기여도를 평가했다.
  3. 재생 인터페이스 제공: 모든 글쓰기 세션을 재생할 수 있는 대화형 도구를 공개하여, 설계자들이 실제 상호작용의 역학관계를 직관적으로 이해할 수 있게 했다.

How

Figure 3

CoAuthor 데이터 수집용 인터페이스

Figure 4

작가와 GPT-3이 작성한 문장의 특성 비교

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 대규모 언어 모델의 인간-AI 협력 능력을 체계적으로 탐구하기 위한 새로운 데이터셋-중심 방법론을 제시하며, 공개된 CoAuthor 데이터셋과 재생 인터페이스는 HCI 커뮤니티에 매우 실질적인 자산이 될 것으로 예상된다. 다만 단일 모델에 대한 분석과 제한된 작업 범위의 확대가 향후 과제이다.

같이 보면 좋은 논문

기반 연구
인간-AI 협업 글쓰기 데이터셋 설계의 기반 연구입니다.
응용 사례
협력적 인지 원리를 글쓰기 도메인에 적용한 구체적 사례
← 목록으로 돌아가기