저자: Fuxiao Liu, Xiaoyang Wang, Wenlin Yao, Jianshu Chen, Kaiqiang Song, Sangwoo Cho, Yaser Yacoob, Dong Yu | 날짜: 2024-04-15 | DOI: 10.48550/arXiv.2311.10774
MMC의 9가지 구별되는 작업, 다양한 주제(비즈니스, 건강, 생물학 등), 다양한 차트 유형(막대, 히스토그램, 선형, 산점도, 히트맵 등)으로 구성된 인간 주석 데이터셋
대규모 멀티모달 차트 명령어 튜닝(600k 인스턴스)을 통해 차트 이해에 특화된 LMM(대규모 멀티모달 모델)을 개발하고, 9가지 하위 작업으로 구성된 포괄적 벤치마크를 제시하는 연구이다.
MMCA의 전체 아키텍처
GPT-4V의 실패 사례(빨강)와 정정 답안(파랑) 비교
총평: 본 논문은 차트 이해라는 중요한 하위 도메인에서 대규모 고품질 데이터셋과 포괄적 벤치마크를 제시함으로써 멀티모달 AI의 실제 응용 확대에 기여하는 의미 있는 작업이다. 기술적 혁신보다는 데이터셋/평가 자산의 가치가 높으며, GPT-4V 포함 광범위한 실증을 통해 현재 모델들의 한계를 명확히 드러낸 점이 강점이다.