Stealing creator's workflow: A creator-inspired agentic framework with iterative feedback loop for improved scientific short-form generation

저자: Jong Inn Park, Maanas Taneja, Qianwen Wang, Dongyeop Kang (University of Minnesota) | 날짜: 2025 | DOI: N/A


Essence

Figure 1: 다중 에이전트 비디오 생성 파이프라인의 개념적 개요

전처리, 계획, 편집, 피드백 및 평가의 4단계로 구성된 파이프라인

본 논문은 과학 논문을 짧은 형식의 동영상으로 변환하는 완전 자동화된 멀티-LLM 에이전트 프레임워크 SciTalk를 제안한다. 인간 크리에이터의 반복적 워크플로우에서 영감을 받아 피드백 루프를 통해 과학적 정확성과 시각적 품질을 향상시킨다.

Motivation

Achievement

Figure 4: 반복(iteration)에 따른 평가 점수 추이

인간 평가와 모델 평가 모두에서 반복을 거쳐 개선 경향

  1. 멀티-에이전트 협업 체계: 6개의 특화된 LLM 기반 에이전트(Flashtalk Generator, Sceneplan Generator, Background Assistant, Text Assistant, Effect Assistant, Layout Allocator)가 4단계 파이프라인에서 조율된 협업 수행. 단순 프롬프팅 기반선(baseline)보다 더 정확하고 매력적인 콘텐츠 생성 달성.
  2. 반복적 피드백 루프: Vision-Language Model 기반 Feedback Agent가 각 부분 장면(sub-scene)을 정성적·정량적 지표로 평가. Reflection Agent가 피드백을 프롬프트에 반영하여 점진적 개선 구현. 사용자 역할 시뮬레이션을 통한 자동화된 피드백 메커니즘.

How

Figure 2: 생성 에이전트들이 장면 구성에 기여하는 상세한 워크플로우

각 에이전트의 입출력과 역할 분담

프리프로세싱 단계 (Preprocessing)

계획 단계 (Planning)

편집 단계 (Editing)

피드백 및 평가 단계 (Feedback & Evaluation)

Originality

Limitation & Further Study

Evaluation

총평: 과학 논문을 짧은 형식 동영상으로 변환하는 새로운 멀티-에이전트 프레임워크를 제안한 의미 있는 초기 연구이나, 생성 결과가 인간 수준에 미치지 못하고 반복 과정의 오류 누적 문제가 해결되지 않아 현재로선 방법론 검증 단계에 머물러 있다. 더 견고한 평가, 개선된 피드백 메커니즘, 그리고 실제 산업 적용 가능성 검증이 필요하다.

같이 보면 좋은 논문

기반 연구
Paper2poster의 다중모달 포스터 자동화 기술이 동영상 생성 워크플로우의 기반 방법론을 제공한다
다른 접근
Paper2Poster의 자동 포스터 생성과 과학 논문의 동영상 변환이 서로 다른 시각적 요약 접근법을 제시한다
후속 연구
창의적 이미지 캡션을 위한 인간-기계 협업 재작성이 과학 콘텐츠 창작의 반복적 개선 프로세스를 확장한다
← 목록으로 돌아가기