저자: Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Ponzetto | 날짜: 2025 | DOI: arXiv:2503.11509
Figure 2. 그래픽 프로그램 합성을 위한 학습 데이터 가용성 비교
텍스트 설명으로부터 TikZ 그래픽 프로그램을 생성하는 문제를 해결하기 위해, 캡션-프로그램 정렬 데이터의 부족이라는 핵심 병목을 극복하는 TikZero를 제시한다. 이 방법은 이미지 표현을 매개자로 활용하여 그래픽 프로그램 생성과 텍스트 이해를 분리함으로써, 정렬되지 않은 대규모 데이터를 독립적으로 활용할 수 있다.
Figure 1. TikZero+와 AutomaTikZv2의 정성적 비교
Figure 3. TikZero의 아키텍처 개요
역 그래픽스 모델 기반
어댑터 네트워크 설계
학습 목표 (증류 기반)
학습 과정
총평: TikZero는 텍스트 기반 그래픽 프로그램 합성의 데이터 부족 문제를 표현 공간 정렬이라는 우아한 해결책으로 해결하며, 대규모 비정렬 데이터의 활용을 통해 상용 모델과 경쟁할 수 있는 성능을 달성한 점에서 학술적·실무적 가치가 높다. 다만 비전 모델 특화, 복잡한 프로그램 생성의 제한성, 도메인 불일치 가능성 등이 미래 연구의 과제로 남아있다.