Does writing with language models reduce content diversity? arXiv preprint arXiv:2309.05196, 2023.

Essence

세 그룹(Solo, GPT3, InstructGPT)이 작성한 에세이의 내용 다양성 측정. InstructGPT로 공동 작성한 에세이가 가장 유사하고 어휘 및 내용 다양성이 낮음

인간 피드백으로 미세조정된 언어모델(InstructGPT)을 사용한 협력 글쓰기가 통계적으로 유의미하게 내용 다양성을 감소시키는지를 제어된 실험을 통해 측정한 연구이다. 기본 모델(GPT3)은 유의미한 영향을 보이지 않았다.

Motivation

Known: 대규모 언어모델(LLM)이 콘텐츠 생성에 광범위하게 사용되고 있으며, 기존 연구에서 LLM 사용이 사용자 의견 형성에 영향을 미칠 수 있음을 보여줌
Gap: 같은 기본 모델에 의존하는 수백만 사용자의 협력 글쓰기가 전체 콘텐츠 다양성을 감소시키는지에 대한 실증적 증거 부재
Why: LLM 기반 글쓰기 보조기가 개별 저자의 고유한 목소리를 희석하여 서로 다른 저자들이 유사한 내용을 생성할 위험이 있으며, 이는 공론장의 다양한 관점 감소로 이어질 수 있음
Approach: 제어된 실험 설계를 통해 세 조건(모델 없음, 기본 GPT3, 미세조정된 InstructGPT)에서 사용자들이 작성한 논설문을 비교하고 다양성 메트릭스 개발

Achievement

세 그룹의 동질화(homogenization) 점수 비교. InstructGPT 그룹이 유의미하게 높은 점수를 나타냄

동질화 효과 입증: InstructGPT로 작성한 에세이가 다른 두 그룹 대비 저자 간 유사도가 통계적으로 유의미하게 높음. 특히 모델이 기여한 주요 포인트가 이러한 동질화의 주요 원인
다양성 감소 확인: InstructGPT 그룹의 에세이들이 (1) 어휘 다양성(lexical diversity) 감소, (2) 반복되는 고차 n-그램(higher-order n-grams) 증가, (3) 고유한 주요 포인트 수 감소를 보임
모델 종류별 차이: 미세조정되지 않은 기본 GPT3는 유사한 수준의 모델 기여도에도 불구하고 유의미한 다양성 감소 효과를 보이지 않음. 인간 피드백 강화학습(RLHF)이 모델 출력의 다양성을 감소시키는 것으로 해석

상위 50개 단어(a)와 5-gram(b)의 분포. InstructGPT 그룹에서 더 큰 집중도를 보임

How

데이터 수집: Upwork에서 모집한 38명의 영어 모국어 사용자가 New York Times Student Opinion 시리즈의 10개 주제에 대해 약 300단어의 논설문 작성 (총 300편)
실험 설계: 각 참가자가 세 가지 조건(Solo, GPT3, InstructGPT)에서 각각 다른 주제로 에세이 작성. TAB 키 입력 시 5개 텍스트 제안 제시, 최소 5회 쿼리 요구
모델 설정: OpenAI API 사용 (GPT3: davinci, InstructGPT: text-davinci-003), temperature 0.9, frequency penalty 0.5로 높은 엔트로피 설정
다양성 메트릭 개발:
- 동질화: 저자 간 유사도 측정 (cosine similarity 기반)
- 어휘 다양성: Type-Token Ratio, Entropy 등
- 내용 다양성: 주요 포인트 유니크성, n-gram 반복도
주요 포인트 추출: GPT-3.5-turbo를 사용한 zero-shot 요약으로 각 에세이의 핵심 주장 추출, Rouge-L 기반 정렬로 모델/사용자 기여도 귀속
모델 기여도 분석: 키스트로크 레벨 기록 데이터를 활용하여 문자 단위로 모델/사용자 생성 텍스트 구분

Originality

첫 실증적 연구: 협력 글쓰기 환경에서 LLM 사용이 집단 수준의 콘텐츠 다양성에 미치는 영향을 체계적으로 측정한 최초의 통제 실험
미세조정 효과 조사: RLHF 미세조정 모델이 기본 모델과 다르게 다양성을 감소시킨다는 새로운 발견
다층적 다양성 분석: 어휘 수준, n-gram 수준, 의미적 내용 수준 등 다양한 관점에서 다양성 측정
세밀한 속성 분석: 키스트로크 기록을 통한 정밀한 모델/사용자 기여도 구분 및 주요 포인트 기여도 분석
데이터 공개: 300편의 모든 에세이와 모델 제안 기록 공개로 재현 가능성 및 후속 연구 용이성 확보

Limitation & Further Study

참가자 규모 제한: 38명의 전문 작가 그룹에서만 실험 (대중 사용자와 다를 수 있음)
제한된 작성 도메인: 논설문만 연구 대상 (다른 장르의 글쓰기에 대한 일반화 불가)
모델 범위 제한: OpenAI 모델(davinci, text-davinci-003)만 테스트 (다른 LLM의 효과는 미확인)
요약 기반 메트릭 의존성: 핵심 포인트 추출이 GPT-3.5 요약의 정확성에 의존 (오류 전파 가능성)
인과성 메커니즘 미완성: 왜 RLHF 미세조정이 다양성을 감소시키는지에 대한 심화 분석 부족
후속 연구 방향:
- 광범위한 사용자 집단(학생, 비전문가)에서의 재실험
- 다른 LLM(Claude, LLaMA 등)의 효과 비교
- 시간 경과에 따른 다양성 감소 누적 효과 연구
- RLHF 과정에서의 다양성 손실 메커니즘 규명
- 다양성 보존 미세조정 방법 개발

Evaluation

총평: 협력 글쓰기 환경에서 인간 피드백 미세조정된 LLM이 콘텐츠 다양성을 의도하지 않게 감소시킨다는 중요한 발견을 제시한 잘 설계된 실증 연구이다. 다만 현상 규명에 주력하여 근본 원인 분석과 해결 방안 제시는 미흡한 편이며, 제한된 참가자 집단에서의 결과로 인한 일반화 가능성 문제가 있다.