Human-LLM Coevolution: Evidence from Academic Writing

저자: Mingmeng Geng, Roberto Trotta | 날짜: 2025 | DOI: N/A


Essence

Figure 1

arXiv 초록에서 ChatGPT가 선호하거나 비선호하는 단어들의 빈도 변화 추이

본 논문은 arXiv 논문 초록의 통계적 분석을 통해 인간과 대형언어모델(LLM)의 공진화(coevolution) 현상을 보여준다. 특히 2024년 초 ChatGPT의 과용 단어들이 지적된 직후부터 해당 단어들의 사용 빈도가 급감하는 현상을 발견했으며, 이는 연구자들이 LLM 출력을 의도적으로 수정하고 있음을 시사한다.

Motivation

Achievement

Figure 2

2018-2024년 arXiv 초록에서 LLM 사용을 나타내는 단어들의 빈도 변화. (a)Liang et al. 2024b가 지적한 4개 단어, (b)Liang et al. 2024a가 지적한 6개 단어의 평균 빈도 추이

  1. 공진화 현상의 명확한 증거: "delve", "intricate", "showcasing" 등 LLM 특성 단어는 2024년 3월-4월 이후 급감했으나, "significant", "additionally" 같은 상대적으로 일반적인 단어는 지속적으로 증가 중. 이는 연구자들이 주목받은 단어는 의도적으로 피하지만, 덜 주목받은 단어에는 민감하지 않음을 보여줌
  2. 탐지 도구의 실제 한계: Binoculars 등 최신 MGT 탐지기는 LLM으로 완전히 처리된 텍스트에 대해 통계적으로 유의미한 탐지 능력을 보이지 못함. 2023년 초록과 LLM 처리 초록 간 탐지 점수 차이 미미
  3. 프롬프트 조작의 효과성: LLM에 특정 단어 사용을 피하도록 명시한 프롬프트(P2)는 해당 단어의 빈도를 감소시키지만 완전히 제거하지는 못하며, 탐지기의 성능 변화는 미미함
Figure 3

컴퓨터과학(CS) 초록과 다른 분야 초록의 단어 빈도 비율 비교. (a)2023년 vs. 2022년 비율, (b)2024년 Q1 vs. 2023-2024년 전체 빈도 비율

  1. 분야 간 확산: CS 분야에서 더 자주 등장하는 단어들이 다른 학문 분야에서도 빈도가 증가하는 추세, LLM 영향이 학문 전반에 걸쳐 확대되고 있음을 시사

How

Figure 4

원본 arXiv 초록과 GPT-4o-mini로 처리한 버전의 단어 빈도 비교. P1: 일반 수정 프롬프트, P2: 특정 단어 금지 프롬프트

Figure 5

Binoculars를 이용한 MGT 탐지 결과. 낮은 점수는 기계생성 가능성 높음을 나타냄. (a)실제 논문 초록의 시간별 변화, (b)원본과 LLM 처리 초록 간 비교

Originality

Limitation & Further Study

Evaluation

총평: 인간과 LLM의 상호적응이라는 흥미로운 현상을 arXiv 대규모 텍스트 데이터로 명확히 증명하며, 현존 탐지 기술의 실질적 한계를 폭로함으로써 MGT 탐지 분야의 재성찰을 촉구하는 가치 있는 연구이다. 다만 인과성과 저자 의도에 대한 직접 증거 부족이 학술적 강도를 다소 제한한다.

같이 보면 좋은 논문

기반 연구
AI 글쓰기가 벽에 새겨진 현상을 분석하는 기반 연구입니다.
기반 연구
인간-LLM 공진화 연구가 개인화된 학술 글쓰기에서 사용자 적응 메커니즘 설계의 이론적 토대를 제공한다.
기반 연구
인간-LLM 공진화에 대한 학술 글쓰기 연구가 본 논문의 양방향 AI-사회과학 관계 이해에 실증적 근거를 제공한다.
다른 접근
학술 글쓰기에서 인간-LLM 공진화와 연구자의 LLM 사용 현황이 서로 다른 관점에서 AI 연구 도구 활용을 분석한다.
다른 접근
학술 글쓰기에서 인간-LLM 공진화와 창의성 평가 비교라는 서로 다른 상호작용 연구입니다.
다른 접근
창의성 평가와 학술 글쓰기에서 인간과 LLM의 상호작용이라는 서로 다른 관점의 비교 연구입니다.
후속 연구
ChatGPT 사용이 글쓰기 정확성에 미치는 영향을 공진화 현상으로 확장한 분석입니다.
응용 사례
학술 글쓰기에서 LLM 침투 현상을 arXiv 데이터 분석으로 구체화한 실증 연구입니다.
← 목록으로 돌아가기