Understanding how paper writers use ai-generated captions in figure caption writing

저자: Ho Yin (Sam) Ng, Ting-Yao Hsu, Jiyoo Min, Sungchul Kim, Ryan A. Rossi, Tong Yu, Hyunggu Jung, Ting-Hao 'Kenneth' Huang | 날짜: 2025 | DOI: arXiv:2501.06317


Essence

Figure 1

사용자 연구 절차 개요: 참가자가 최근 발표한 논문에서 두 개의 그림 캡션을 AI 생성 캡션을 활용하여 다시 작성함

본 논문은 18명의 논문 저자가 최신 AI 모델이 생성한 캡션을 자신의 논문 작성 과정에 어떻게 통합하는지 실제 사용자 연구를 통해 조사했으며, 저자들이 AI 생성 캡션을 복사-수정하는 방식으로 활용하되 긴 형식의 상세한 캡션을 선호함을 발견했다.

Motivation

Achievement

Figure 2

통계적 그림(좌)과 개념적 그림(우)의 대표 예시

  1. AI 캡션 활용 패턴: 대부분의 참가자(18명 중 대다수)가 AI 생성 캡션의 상당 부분을 복사한 후 이를 수정하거나 확장하는 방식으로 접근. 직접 작성보다는 AI 결과물을 기반으로 반복적으로 정제하는 과정을 거침.
  2. 그림 유형별 효과 차이: AI 생성 캡션이 통계적 그림(statistical figures, 그래프/차트)에 대해서는 효과적이었으나, 개념적 그림(conceptual figures, 이론 모델/프로세스)의 경우 현재 AI 모델의 성능이 제한적. 복잡한 그림에 대해 AI 모델은 효과적인 지원을 제공하지 못함.
  3. 저자 선호도 양식: 논문 저자들은 시각적 요소와 텍스트 정보를 통합한 더 길고 상세한 캡션을 선호하며, 이는 현재의 짧은 AI 생성 캡션보다 자신들의 요구와 맞는 형태.

How

Figure 3

그림 캡션 작성 작업용 사용자 인터페이스: (1) 대상 그림, (2) 원본 논문 콘텐츠, (3) AI 생성 캡션

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 AI 캡션 생성 연구에서 중요한 공백을 메우며, 저자의 실제 작성 과정을 관찰하는 참신한 접근법을 제시했다. 정성 연구로서 상호작용 분석은 견고하고 실용적 시사점을 도출했으나, 표본 크기와 도메인 다양성 측면에서 일반화 가능성이 제한되며, 향후 더 대규모 정량 연구와 모델 개선 제안으로 발전할 여지가 있다.

같이 보면 좋은 논문

기반 연구
과학 그림에서 캡션 생성을 위한 프레임워크가 본 논문의 AI 생성 캡션 활용 연구에 기술적 기반을 제공한다.
다른 접근
텍스트 참조를 활용한 과학 그림 캡션 생성이 AI 자동 생성과는 다른 인간 중심의 캡션 작성 접근법을 제시한다.
후속 연구
과학 그림을 위한 캡션 생성 연구가 본 논문의 사용자 관점 분석을 기술 개발 측면에서 보완한다.
← 목록으로 돌아가기