저자: Jong Inn Park, Maanas Taneja, Qianwen Wang, Dongyeop Kang (University of Minnesota) | 날짜: 2025 | DOI: N/A
전처리, 계획, 편집, 피드백 및 평가의 4단계로 구성된 파이프라인
본 논문은 과학 논문을 짧은 형식의 동영상으로 변환하는 완전 자동화된 멀티-LLM 에이전트 프레임워크 SciTalk를 제안한다. 인간 크리에이터의 반복적 워크플로우에서 영감을 받아 피드백 루프를 통해 과학적 정확성과 시각적 품질을 향상시킨다.
인간 평가와 모델 평가 모두에서 반복을 거쳐 개선 경향
각 에이전트의 입출력과 역할 분담
프리프로세싱 단계 (Preprocessing)
계획 단계 (Planning)
편집 단계 (Editing)
피드백 및 평가 단계 (Feedback & Evaluation)
총평: 과학 논문을 짧은 형식 동영상으로 변환하는 새로운 멀티-에이전트 프레임워크를 제안한 의미 있는 초기 연구이나, 생성 결과가 인간 수준에 미치지 못하고 반복 과정의 오류 누적 문제가 해결되지 않아 현재로선 방법론 검증 단계에 머물러 있다. 더 견고한 평가, 개선된 피드백 메커니즘, 그리고 실제 산업 적용 가능성 검증이 필요하다.