저자: J.A. Rodríguez, David Vázquez, Issam Laradji, Marco Pedersoli, Pau Rodríguez | 날짜: 2023 | DOI: arXiv:2306.00800
Figure 1: Paper2Fig100k 테스트 셋의 캡션으로부터 생성된 모델의 샘플들
텍스트 설명으로부터 과학 논문의 도형(scientific figure)을 생성하는 새로운 문제를 제시하고, 확산 모델(diffusion model) 기반의 FigGen을 제안한 초기 탐색 연구이다. 자연 이미지와 달리 과학 도형은 이산적 컴포넌트(상자, 화살표, 텍스트)와 높은 기술적 복잡성을 포함하므로 새로운 도전과제를 제시한다.
Figure 2: 다양한 Classifier-Free Guidance(CFG) 스케일에서 생성된 FigGenBase 샘플들
총평: 본 논문은 과학 도형 자동 생성이라는 미개척 문제를 처음 체계적으로 정의하고 탐색한 선도적 연구로서 학문적 가치가 있다. 다만 현재 기술 수준의 생성 품질이 실용 단계에 미치지 못하며, 도메인의 복잡성(텍스트-이미지 정렬, 이산적 구조 표현)을 완전히 해결하지 못한 초기 단계 연구이다.