Large language models penetration in scholarly writing and peer review

저자: Li Zhou, Ruijie Zhang, Xiao Dai, Daniel Hershcovich, Haizhou Li | 날짜: 2025 | DOI: arXiv:2502.11193


Essence

본 논문은 학술 저술 및 피어 리뷰 과정에서 대규모 언어모델(LLM)의 침투 정도를 측정하기 위한 포괄적 평가 프레임워크를 제시한다. ScholarLens 데이터셋과 LLMetrica 도구를 통해 규칙 기반 지표와 모델 기반 탐지기를 결합하여 학술 워크플로우에서의 LLM 사용 추세를 다각도로 분석한다.

Motivation

Achievement

Figure 1

파이프라인 개요: (1) ScholarLens 큐레이션, (2) LLMetrica 프레임워크, (3) 학술 저술 및 피어 프로세스의 LLM 침투율 평가

  1. ScholarLens 데이터셋 구축: ICLR 2019년 이전 2,831개 논문의 초록, 리뷰, 메타-리뷰로 구성된 큐레이션 데이터셋 개발. GPT-4o, Gemini-1.5, Claude-3 Opus 등 3개의 최신 LLM으로 생성된 대응 텍스트 포함.
  2. LLMetrica 프레임워크 개발: 10개의 일반 언어학적 특성 지표(어휘 길이, 문장 복잡도, 가독성 등)와 4개의 전문 의미론적 특성 지표(의미적 유사성, 문장 수준 특수성)를 통합한 종합 평가 도구 개발.
  3. ScholarDetect 탐지기: ScholarLens를 기반으로 학술 영역 특화 LLM 탐지 모델 개발로 높은 정확도의 LLM 생성 콘텐츠 식별 달성.

How

Figure 2

ScholarLens의 일반 특성에 기반한 인간 저술과 LLM 생성 텍스트 비교

규칙 기반 지표(Rule-Based Metrics):

모델 기반 탐지기(Model-Based Detectors):

다차원 평가 방식:

Originality

Limitation & Further Study

후속 연구 방향:

Evaluation

총평: 본 논문은 학술 커뮤니티에서 시급한 LLM 투명성 문제를 다루는 실질적 도구와 데이터셋을 제공하며, 다각도 평가 프레임워크와 학술 영역 특화 지표 개발이 돋보인다. 다만 시간성과 도메인 일반화 측면의 한계를 보완한다면 학술 출판 거버넌스 개선에 더욱 기여할 수 있을 것이다.

같이 보면 좋은 논문

기반 연구
학술 워크플로우에서 LLM 사용 패턴 분석이 LLM 기반 리뷰 시스템의 보안 위험 평가의 배경이 된다
기반 연구
의학 분야 특화 LLM 사용 실태가 전체 학술 분야 침투도 측정의 선행 연구가 된다
기반 연구
학술 글쓰기에서 LLM 침투도 측정이 과학 요약의 일반화 편향 분석의 배경이 된다
다른 접근
LLM의 학술 침투를 측정하는 관점에서 104는 보안 위험, 478은 전반적인 사용 패턴을 분석한다
후속 연구
의학 연구자 대상 실태조사에서 전체 학술 분야로 LLM 침투도 측정을 확장한다
응용 사례
학술 글쓰기에서 LLM 침투 현상을 arXiv 데이터 분석으로 구체화한 실증 연구입니다.
응용 사례
LLM 침투도 측정 도구가 과학 요약에서 나타나는 일반화 편향 분석에 적용된다
← 목록으로 돌아가기