P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark

저자: Tao Sun, Enhao Pan, Zhengkai Yang, Kaixin Sui, Jiajun Shi, Xianfu Cheng, Tongliang Li, Wenhao Huang, Ge Zhang, Jian Yang, Zhoujun Li | 날짜: 2025 | DOI: arXiv:2505.17104v1


Essence

Figure 1

Figure 1: P2P의 다중 에이전트 아키텍처: Figure Agent는 시각 요소 처리, Section Agent는 콘텐츠 생성, Orchestrate Agent는 포스터 조립 및 HTML 렌더링을 담당

학술 논문을 자동으로 고품질 학술 포스터(HTML 형식)로 변환하는 LLM 기반 다중 에이전트 프레임워크를 제안하며, 30,000개 이상의 대규모 지시 데이터셋과 세부 평가 벤치마크를 함께 제공한다.

Motivation

Achievement

Figure 2

Figure 2: 논문-포스터 변환 예시: 좌측 논문의 주요 요소(제목, 그림, 섹션)가 우측 생성된 포스터에 매핑됨

  1. P2P 다중 에이전트 프레임워크: 세 개의 특화된 에이전트와 각각의 검증 모듈(checker module)을 통해 반복적 개선(iterative refinement)을 수행하며, HTML/CSS 기반 렌더링으로 전문적인 포스터 생성 달성.
  2. P2P INSTRUCT 데이터셋: 30,460개의 고품질 지시-응답 쌍(instruction-response pairs)으로 구성된 첫 대규모 학술 포스터 생성 특화 데이터셋 구축. Figure Describer를 통해 16,848개 그림 설명(평균 192 토큰), Section/Content/HTML Generator를 통해 13,612개 텍스트 콘텐츠 예제(평균 3,300 토큰 이상) 수집.
  3. P2P EVAL 벤치마크: 121개 논문-포스터 쌍과 이중 평가 방법론(Universal Evaluation + Fine-Grained Evaluation)을 포함한 포괄적 평가 체계 제시. 33개 모델 평가를 통한 성능 검증.

How

Figure 1

Figure Agent (시각 요소 처리)

Section Agent (텍스트 콘텐츠 생성)

Orchestrate Agent (포스터 조립 및 렌더링)

P2P EVAL 평가 프레임워크

Originality

Limitation & Further Study

Evaluation

총평: P2P는 학술 포스터 자동 생성이라는 미개척 분야에 다중 에이전트, 대규모 데이터셋, 표준화된 평가 벤치마크를 종합적으로 제시함으로써 높은 실무적 가치와 학술적 의의를 갖추었으나, 기술적 심화와 사용자 검증이 추가되면 더욱 완성도 있는 연구가 될 것으로 기대된다.

같이 보면 좋은 논문

기반 연구
과학 그림 캡션 생성의 기본 기술을 논문-포스터 변환에 적용하여 더 정교한 시각적 요소 처리를 가능하게 합니다.
다른 접근
멀티모달 콘텐츠 생성에서 인간-AI 협력의 다른 형태로, 포스터 생성과 데이터 주석에서 품질 보장 방법론을 비교할 수 있습니다.
다른 접근
인간-AI 협력 주석 작업의 다른 형태로, 데이터 주석과 포스터 생성에서 공통된 품질 보장 방법론을 비교할 수 있습니다.
다른 접근
Paper2Poster의 자동 포스터 생성과 과학 논문의 동영상 변환이 서로 다른 시각적 요약 접근법을 제시한다
다른 접근
학술 콘텐츠 변환에서 논문-웹사이트 변환과 논문-포스터 생성이라는 서로 다른 시각적 변환 방식을 제시한다.
후속 연구
과학 논문의 시각적 표현 자동화를 포스터에서 더 다양한 멀티모달 형식으로 확장하여 포괄적인 학술 커뮤니케이션 도구를 구축할 수 있습니다.
← 목록으로 돌아가기