XtraGPT: Llms for human-ai collaboration on controllable academic paper revision

저자: Nuo Chen, Andre Huikai Lin, Jiaying Wu, Junyi Hou, Zining Zhang, Qian Wang, Xidong Wang, Bingsheng He | 날짜: 2025 | DOI: arXiv:2505.11336


Essence

Figure 1

학술 논문 수정 워크플로우 비교 (좌) 및 proprietary LLM의 부족한 수정 예시 (우)

본 논문은 맥락 인식(context-aware)과 제어 가능한(controllable) 학술 논문 수정을 위한 인간-AI 협업 프레임워크를 제안하며, 이를 구현한 XtraGPT 모델군(1.5B~14B)을 소개한다. 140,000개의 지도 학습 쌍으로 구성된 ReviseQA 데이터셋을 구축하여 섹션 단위의 정교한 학술 논문 수정을 지원한다.

Motivation

Achievement

Figure 2

사후 훈련 파이프라인 개요 - 제어 가능한 섹션 단위 정교한 논문 수정 가능

  1. 데이터셋 구축: ReviseQA - 상위 학회 7,000개 논문에서 추출한 140,000개 고품질 지도-수정 쌍
    • 20개 섹션 단위 작문 기준에 따라 체계적으로 주석 처리
    • 경험 많은 AI 연구자들의 전문 수정을 통해 현실성 확보
  2. 모델 성능: XtraGPT 모델군(1.5B~14B)
    • 동일 규모 베이스라인 대비 현저히 우수한 성능
    • 7B 모델: GPT-4o-mini 수준 달성
    • 14B 모델: GPT-4o-mini 초과 성능
    • LLM-as-a-Judge 자동 평가에서 원본 초안 대비 지속적으로 선호됨
  3. 인간 평가 검증:
    • 사용자가 채택하려는 의도를 가진 의도-정렬(intent-aligned) 개선 생성
    • 논문 품질 점수 증가: 6.08 → 6.73 (p<0.001, Δ=0.65±0.15)
    • 제어성 구현: 사용자 지시에 따른 동적 수정 가능

How

Figure 2

제안된 프레임워크의 주요 설계 원칙과 기술적 구현

문제 정의 (Problem Formulation):

핵심 설계 원칙:

  1. 기준 지향 의도 정렬 (Criteria-Guided Intent Alignment)
    • 저자 지시를 "명확화 강화", "기여도 강화" 같은 학술 작문 기준으로 구조화
    • 20개 섹션별 기준으로 고수준 지시를 실행 가능한 구체적 수정으로 전환
    • 훈련 데이터의 지시-수정 쌍을 기준에 명시적으로 링크
  2. 맥락 인식 모델링 (Context-Aware Modeling)
    • 전체 논문 맥락 T를 훈련 및 추론 시 명시적 입력으로 포함
    • 문단의 기능(motivation vs. analysis)을 문서 구조 내에서 파악
    • 전역 서술, 용어, 논리 구조에 조건화된 표현 학습 강제
  3. 인간-AI 협업 철학 (Human-AI Collaboration)
    • LLM을 완전 자동화 도구가 아닌 저자 능력 증강 조수로 위치
    • 인간: 지적 핵심(아이디어, 주장, 초안 작성)
    • AI: 지시 기반 정교한 맥락 인식 개선 제공
    • 저자 제어권 보존으로 독창성 훼손 방지

훈련 전략:

평가 방법:

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 학술 논문 수정을 인간-AI 협업의 관점에서 체계적으로 접근한 실용성 높은 연구이며, 기준 기반 지시 정렬과 맥락 인식 모델링이라는 명확한 설계 원칙 아래 140,000개 쌍의 전문가 주석 데이터셋과 XtraGPT 모델군을 제시했다. 자동/인간 평가에서 GPT-4o-mini 수준의 성능을 달성하고 실제 논문 품질 개선을 입증했으나, 모델 규모와 언어 다양성 면에서의 한계가 향후 과제로 남아있다.

같이 보면 좋은 논문

기반 연구
언어 모델을 통한 글쓰기 피드백 생성 방법론이 제어 가능한 학술 논문 수정 시스템의 기술적 기반을 제공한다.
다른 접근
학술 글쓰기 지원에서 595는 Overleaf 통합, 889는 제어 가능한 학술 글쓰기를 위한 LLM을 사용한다
다른 접근
학술 글쓰기 개인화에서 프로필 증류와 제어 가능한 수정이라는 서로 다른 접근법을 비교할 수 있다.
다른 접근
학술 논문 수정에서 제어 가능한 접근법과 동적 인용 검색 기반 접근법이라는 서로 다른 AI 지원 방식을 비교할 수 있다.
다른 접근
학술 글쓰기에서 동적 검색 기반 인용 생성과 제어 가능한 논문 수정이라는 서로 다른 AI 지원 방식을 비교할 수 있다.
후속 연구
제어 가능한 학술 수정과 개인화 프로필링을 결합하여 사용자 맞춤형 논문 수정 시스템을 구축할 수 있다.
← 목록으로 돌아가기