Machine-in-the-loop rewriting for creative image captioning

저자: Vishakh Padmakumar, He He | 날짜: 2021 | DOI: [미기재]


Essence

Figure 1

그림 1: 사용자가 중심이 되어 재작성할 텍스트 구간을 표시하면, 모델이 창의적인 대안을 제시하는 기계-인-루프 시스템

본 논문은 사용자가 주도권을 유지하면서 창의적 작문을 돕는 기계-인-루프 재작성 모델(Creative Rewriting Assistant, CRA)을 제안하며, 이미지 캡션 작성 과제에서 사용자와의 협력을 통해 더욱 서술적이고 비유적인 텍스트 생성을 지원한다.

Motivation

Achievement

Figure 2

그림 2: 창의적 텍스트 데이터셋의 주석을 활용하여 BART-Large로 일반적 문장을 생성하고, 이를 학습 데이터로 변환하는 과정

  1. 사용자 만족도 향상: 사용자 연구(Amazon Mechanical Turk)에서 CRA가 기준 모델(BART infilling 모델)보다 훨씬 더 도움이 된다는 평가를 받음
  2. 작문 품질 개선: CRA와 협력하여 작성한 캡션이 독립적으로 작성한 캡션보다 더 창의적이고 다양한 어휘를 포함하며, 제3자 평가에서도 서술적 및 비유적 요소가 더 풍부함
  3. 적응적 학습 가능: 사용자의 승인/거절 피드백을 통해 모델을 지속적으로 미세조정(fine-tune)할 수 있어, 사용자 선호도에 적응 가능

How

Figure 3

그림 3: 기계-인-루프 협력과 독립 작성 간의 생성 텍스트 비교 예시

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 사용자 제어권을 보장하면서도 창의적 작문을 보조하는 실용적이고 타당한 접근법을 제시하며, 특히 기술이 다양한 사용자 그룹에 미치는 차별적 영향을 분석한 점이 강점입니다. 다만 평가 과제의 제한성과 초보 사용자를 위한 해결책 부재가 향후 개선 과제입니다.

같이 보면 좋은 논문

기반 연구
사용자 제어 가능한 텍스트 생성이라는 공통 방법론적 기반을 공유합니다.
기반 연구
사용자 제어 가능한 텍스트 생성이라는 공통 방법론적 기반을 공유합니다.
기반 연구
인간-AI 협업 글쓰기 데이터셋 설계의 기반 연구입니다.
다른 접근
창의적 이미지 캡션 작성과 과학 캡션 생성에서 기계-인-루프와 멀티 LLM이라는 서로 다른 협업 방식입니다.
다른 접근
캡션 생성에서 멀티 LLM 협업과 기계-인-루프라는 서로 다른 협업 패러다임입니다.
후속 연구
인간-AI 협업 편집을 이미지 캡션에서 스토리 작성으로 확장한 연구입니다.
후속 연구
창의적 이미지 캡션을 위한 인간-기계 협업 재작성이 과학 콘텐츠 창작의 반복적 개선 프로세스를 확장한다
← 목록으로 돌아가기