Understanding how paper writers use ai-generated captions in figure caption writing

Essence

사용자 연구 절차 개요: 참가자가 최근 발표한 논문에서 두 개의 그림 캡션을 AI 생성 캡션을 활용하여 다시 작성함

본 논문은 18명의 논문 저자가 최신 AI 모델이 생성한 캡션을 자신의 논문 작성 과정에 어떻게 통합하는지 실제 사용자 연구를 통해 조사했으며, 저자들이 AI 생성 캡션을 복사-수정하는 방식으로 활용하되 긴 형식의 상세한 캡션을 선호함을 발견했다.

Motivation

Known: 학술 출판물에서 그림과 캡션의 중요성이 증명되었으며, LLM을 이용한 캡션 자동 생성 연구가 진행 중이다. 그러나 많은 출판된 논문의 캡션이 형편없는 품질이다.
Gap: 기존 연구는 대부분 '읽기 중심(reader-centered)' 사용 사례에 집중하여 사용자가 생성된 캡션을 평가하기만 하는 상황을 다뤘다. 반면 논문 저자가 AI 생성 캡션을 자신의 작성 과정에 실제로 통합하는 방식에 대한 연구는 부족하다.
Why: 논문 저자는 자신의 연구에 깊은 도메인 지식을 가진 전문가이며, 다양한 학술 청중을 고려해야 하므로, 독자 평가와는 다른 독특한 필요를 가진다. 저자 관점의 이해가 AI 캡션 생성 시스템 설계 개선에 필수적이다.
Approach: 18명의 참가자가 자신의 최근 발표 논문에서 2개 그림의 캡션을 재작성하도록 하되, 최첨단 AI 모델이 생성한 3개의 캡션을 제공. 비디오 기록과 상호작용 분석(interaction analysis)을 통해 저자의 작성 행동을 상세히 분석.

Achievement

통계적 그림(좌)과 개념적 그림(우)의 대표 예시

AI 캡션 활용 패턴: 대부분의 참가자(18명 중 대다수)가 AI 생성 캡션의 상당 부분을 복사한 후 이를 수정하거나 확장하는 방식으로 접근. 직접 작성보다는 AI 결과물을 기반으로 반복적으로 정제하는 과정을 거침.
그림 유형별 효과 차이: AI 생성 캡션이 통계적 그림(statistical figures, 그래프/차트)에 대해서는 효과적이었으나, 개념적 그림(conceptual figures, 이론 모델/프로세스)의 경우 현재 AI 모델의 성능이 제한적. 복잡한 그림에 대해 AI 모델은 효과적인 지원을 제공하지 못함.
저자 선호도 양식: 논문 저자들은 시각적 요소와 텍스트 정보를 통합한 더 길고 상세한 캡션을 선호하며, 이는 현재의 짧은 AI 생성 캡션보다 자신들의 요구와 맞는 형태.

How

그림 캡션 작성 작업용 사용자 인터페이스: (1) 대상 그림, (2) 원본 논문 콘텐츠, (3) AI 생성 캡션

참가자 선정: 온라인 설문을 통해 최근 3년 이내 최소 1편 이상 발표한 경험 있는 18명 모집 (평균 경력 26-29세, 72%가 비영어권 저자)
자료 준비: 참가자가 제출한 최근 3년 이내 논문에서 통계적 그림 16개, 개념적 그림 18개 선별 (총 34개 그림)
캡션 생성 방식: GPT-4o를 포함한 최첨단 비전-언어 모델과 텍스트 요약 기반 접근법을 활용하여 각 그림당 3개의 AI 생성 캡션 제공
데이터 수집: 참가자의 전체 캡션 작성 과정을 비디오 녹화 후, 상호작용 분석 기법으로 수동 코딩하여 작성 행동 패턴 분석
분석 방법: 비디오에서 AI 캡션과의 상호작용 유형을 분류하고 (복사, 수정, 통합, 무시 등), 그림 유형별 및 저자별 차이 분석

Originality

저자 중심 관점: 기존의 독자 중심 또는 평가자 중심 연구를 벗어나, 실제 논문 저자가 자신의 작업에 AI를 어떻게 활용하는지를 직접 관찰한 최초의 포괄적 연구
실제 작업 환경: 참가자가 다른 사람의 논문이 아닌 자신의 논문 캡션을 재작성하도록 함으로써, 실제 저자의 의도(author's intent)와 도메인 지식이 반영되는 현실적 시나리오 재현
상호작용 분석: 정량적 메트릭이나 일반적인 휴먼 평가를 넘어, 비디오 기반 상호작용 분석으로 저자의 인지 과정, 의사결정, 수정 과정을 세밀하게 포착
다양한 분야 포함: 컴퓨터과학에서 화학, 재료과학, 에너지공학까지 9개 분야의 참가자 포함으로 학제 간 통찰 제공

Limitation & Further Study

샘플 크기 제약: 18명의 참가자는 정성 연구로는 적절하나, 광범위한 일반화에는 제한적. 특히 특정 분야(컴퓨터과학 28%, HCI 22%)에 편중된 표본 구성
시간 제약: 참가자가 "최근에 작성한" 캡션을 재작성하도록 했으므로, 오래 전 작업이나 새로운 프로젝트에서의 행동과 차이가 있을 수 있음
AI 모델 선택의 한계: GPT-4o와 같은 특정 모델만 사용했으므로, 다른 캡션 생성 모델(예: 전문 과학 모델)의 성능 차이를 반영하지 못함
복잡한 그림 처리 부족: 통계와 개념을 혼합한 복잡한 그림 2개는 제외되어, 현대 학술 출판물에서 증가 추세인 복합 시각화에 대한 인사이트 제한
후속 연구 방향:
- 더 큰 규모 및 다양한 학문 분야 대상 종단 연구
- 저자의 수정 과정에서 AI 제안의 "설득력" 측정 및 불일치 원인 분석
- 실시간 피드백을 통해 AI 캡션 생성 모델 개선 방향 도출
- 도메인 특화 캡션 생성 모델(과학 문헌 학습 모델)의 효과성 비교 연구

Evaluation

총평: 본 논문은 AI 캡션 생성 연구에서 중요한 공백을 메우며, 저자의 실제 작성 과정을 관찰하는 참신한 접근법을 제시했다. 정성 연구로서 상호작용 분석은 견고하고 실용적 시사점을 도출했으나, 표본 크기와 도메인 다양성 측면에서 일반화 가능성이 제한되며, 향후 더 대규모 정량 연구와 모델 개선 제안으로 발전할 여지가 있다.

같이 보면 좋은 논문

기반 연구

FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback

과학 그림에서 캡션 생성을 위한 프레임워크가 본 논문의 AI 생성 캡션 활용 연구에 기술적 기반을 제공한다.

다른 접근

Figuring out figures: Using textual references to caption scientific figures

텍스트 참조를 활용한 과학 그림 캡션 생성이 AI 자동 생성과는 다른 인간 중심의 캡션 작성 접근법을 제시한다.

후속 연구

SciCap: Generating Captions for Scientific Figures

과학 그림을 위한 캡션 생성 연구가 본 논문의 사용자 관점 분석을 기술 개발 측면에서 보완한다.