저자: Renqiu Xia, Bo Zhang, Hancheng Ye, Xiangchao Yan, Qi Liu, Hongbin Zhou, Zijun Chen, Min Dou, Botian Shi, Junchi Yan, Yu Qiao | 날짜: 2024 | DOI: N/A
Figure 1: ChartX 평가 데이터셋과 ChartVLM 모델의 개요. ChartX는 22개 분야, 18개 차트 유형, 7개 작업을 포함하며, ChartVLM은 instruction adapter를 통해 작업을 동적으로 선택하고 인식 작업 결과를 추론 작업에 통합하여 해석가능성을 향상시킨다.
본 논문은 다중모달 대형언어모델(MLLM)의 차트 이해 능력을 종합적으로 평가하기 위해 ChartX 벤치마크와 ChartVLM 기초모델을 제시한다. 특히 차트 데이터 추출과 복잡한 추론을 포함하는 다단계 작업에서 모델의 해석가능성을 강화하는 새로운 접근방식을 제안한다.
Figure 4: ChartVLM의 아키텍처. 기본 디코더는 제목/유형/구조 추출(SE)을 담당하고, 보조 디코더는 instruction adapter를 통해 동적으로 QA, 설명, 요약, 코드 재생성 등의 작업을 선택 실행한다.
Figure 3: 차트 데이터 수집 및 품질 검증 파이프라인
총평: ChartX & ChartVLM은 차트 이해 벤치마킹과 모델 개발에 있어 중요한 이정표를 제시한다. 특히 해석가능성을 강조하는 설계 철학과 공개 데이터셋의 규모는 해당 분야의 향후 연구 방향을 형성할 가능성이 높다. 다만 실제 자연 차트 데이터 통합과 모델 스케일링 측면에서 추가 개선이 필요하다.