저자: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty | 날짜: 2024 | DOI: 10.48550/ARXIV.2407.04172
차트 이미지에서 직접 생성한 시각적 명령어 데이터로 학습한 멀티모달 모델로, 기존 데이터 테이블 의존성을 제거하고 강력한 비전-언어 백본(PaliGemma)을 활용하여 실제 차트 이해와 추론에서 최고 성능을 달성했다.
Figure 1: 명령어-튜닝 데이터 생성 과정. 차트 이미지를 Gemini Flash 1.5에 입력하여 ChartGemma 미세조정에 사용할 시각적 차트 명령어 생성
Table 1: 동일한 LLM(Gemini Flash 1.5)이 데이터 테이블 vs. 차트 이미지에서 생성한 요약의 차이로, 시각적 속성 이해의 중요성을 강조
방법론:
총평: ChartGemma는 차트 이해 문제의 핵심인 시각적 정보 포착과 강한 모델 정렬에 효과적으로 대응하며, 기존 데이터 테이블 의존 방식의 한계를 극복한 실용적이고 우수한 연구로, 재현성 공개를 통해 학계에 의미 있는 기여를 한다.