저자: Dawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon | 날짜: 2026-01-30 | DOI: 10.48550/arXiv.2601.23265
그림 1: PaperBanana가 생성한 방법론 다이어그램과 통계 플롯의 예시로, 학술 일러스트레이션 생성 자동화의 잠재력을 보여줌
본 논문은 자율 AI 과학자(Autonomous AI Scientists)의 시각화 병목을 해결하기 위해, 에이전트 기반 프레임워크 PaperBanana를 제안한다. 이는 VLM(Vision Language Model)과 이미지 생성 모델을 활용하여 학술 출판 기준을 충족하는 다이어그램과 플롯을 자동으로 생성한다.
그림 2: 선형 계획 단계와 반복 정제 루프로 구성된 PaperBanana의 전체 아키텍처
그림 3: PaperBananaBench 테스트 셋의 통계 (총 292개 샘플, 평균 원본 문맥 길이 3,020.1 단어, 그림 캡션 70.4 단어)
총평: PaperBanana는 자율 AI 과학자의 중요한 약점인 시각화 자동화를 체계적으로 해결하는 실용적이고 잘 설계된 솔루션으로, 새로운 벤치마크와 함께 학술 커뮤니티에 의미 있는 기여를 제공한다. 다만 개별 기법의 창의성과 모델 의존성에 대한 보완이 있으면 더욱 강력한 논문이 될 수 있다.