Paper2poster: Towards multimodal poster automation from scientific papers

저자: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip H. S. Torr | 날짜: 2025 | DOI: N/A


Essence

Figure 1

과학 논문에서 포스터를 생성하기 위한 두 가지 핵심 도전 과제: (좌) PosterAgent를 통한 포스터 생성 방법, (우) Paper2Poster 벤치마크를 통한 평가 방법

본 논문은 과학 논문을 단일 페이지 학술 포스터로 자동 변환하는 첫 번째 벤치마크와 평가 지표 집합을 제시하며, 시각적-언어적 피드백 루프를 갖춘 다중 에이전트 파이프라인(PosterAgent)을 제안한다.

Motivation

Achievement

Figure 3

Paper2Poster 평가 프레임워크: 시각적 품질, 텍스트 일관성, VLM 판정관을 통한 종합 평가, PaperQuiz를 통한 독자 이해도 시뮬레이션

  1. 첫 번째 벤치마크 구축: POSTERSUM 데이터셋을 기반으로 2022-2024년 ICML, NeurIPS, ICLR 논문 100개와 저자가 설계한 포스터 쌍 수집. 평균 22.6페이지, 20,370.3 토큰의 논문을 774.1단어, 1,416.2 토큰으로 14.4배 압축
  2. 혁신적 PaperQuiz 지표: LLM이 자동 생성한 다지선다형 문제로 VLM 리더(학생, 교수 등 다양한 전문성 수준)가 포스터만으로 논문 내용을 파악할 수 있는지 평가—인간 평가와 높은 상관관계
  3. 성능 우수성: Qwen-2.5 기반 오픈소스 모델이 GPT-4o 기반 멀티에이전트 시스템을 거의 모든 지표에서 뛰어넘으면서 87% 적은 토큰 사용(비용 $0.005)
  4. 품질 인사이트:
    • GPT-4o는 시각적으로는 매력적이나 텍스트 노이즈 많음 및 PaperQuiz 성능 낮음
    • 인간 포스터의 주요 강점은 시각적 의미론(visual semantics)을 통한 소통
    • Reader Engagement가 심미적 병목

How

Figure 4

PosterAgent 파이프라인: Parser(논문→자산 라이브러리), Planner(의미적 정렬 및 레이아웃 생성), Painter-Commenter 루프(렌더링 및 VLM 피드백)

PosterAgent 3단계 구조:

  1. Parser (자산 추출)
    • PDF 논문을 섹션별 텍스트 요약 및 추출된 figure/table의 자산 라이브러리로 변환
  2. Planner (레이아웃 설계)
    • 각 섹션 요약과 시각 자산을 의미론적으로 매칭
    • 이진 트리(binary-tree) 레이아웃 생성
    • 콘텐츠 길이 추정으로 패널 할당, 읽기 순서 및 공간 균형 보존
  3. Painter-Commenter 루프 (반복 개선)
    • Painter: 섹션-figure 쌍을 간결한 bullet point로 변환 후 python-pptx로 드래프트 렌더링
    • Commenter: VLM이 확대 참조 프롬프트로 텍스트 오버플로우, 공간 정렬 피드백 제공
    • 피드백을 Painter에 반영하여 수렴할 때까지 반복

평가 프레임워크:

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 학술 포스터 자동 생성이라는 도전적이고 실용적인 문제에 처음으로 체계적으로 접근한 의미 있는 작업으로, 신뢰할 수 있는 벤치마크와 혁신적인 PaperQuiz 지표를 제공하며, 실용성 높은 PosterAgent 파이프라인으로 강력한 결과를 달성했다. 다만 데이터셋 규모 확대, 다양한 학문 분야 적용, 그리고 자동 평가 지표의 보완이 향후 필요하다.

같이 보면 좋은 논문

기반 연구
Paper2poster의 다중모달 포스터 자동화 기술이 동영상 생성 워크플로우의 기반 방법론을 제공한다
후속 연구
과학 논문의 시각적 표현 자동화를 포스터에서 더 다양한 멀티모달 형식으로 확장하여 포괄적인 학술 커뮤니케이션 도구를 구축할 수 있습니다.
← 목록으로 돌아가기