Chartx & chartvlm: A versatile benchmark and foundation model for complicated chart reasoning

저자: Renqiu Xia, Bo Zhang, Hancheng Ye, Xiangchao Yan, Qi Liu, Hongbin Zhou, Zijun Chen, Min Dou, Botian Shi, Junchi Yan, Yu Qiao | 날짜: 2024 | DOI: N/A


Essence

Figure 1

Figure 1: ChartX 평가 데이터셋과 ChartVLM 모델의 개요. ChartX는 22개 분야, 18개 차트 유형, 7개 작업을 포함하며, ChartVLM은 instruction adapter를 통해 작업을 동적으로 선택하고 인식 작업 결과를 추론 작업에 통합하여 해석가능성을 향상시킨다.

본 논문은 다중모달 대형언어모델(MLLM)의 차트 이해 능력을 종합적으로 평가하기 위해 ChartX 벤치마크와 ChartVLM 기초모델을 제시한다. 특히 차트 데이터 추출과 복잡한 추론을 포함하는 다단계 작업에서 모델의 해석가능성을 강화하는 새로운 접근방식을 제안한다.

Motivation

Achievement

Figure 4

Figure 4: ChartVLM의 아키텍처. 기본 디코더는 제목/유형/구조 추출(SE)을 담당하고, 보조 디코더는 instruction adapter를 통해 동적으로 QA, 설명, 요약, 코드 재생성 등의 작업을 선택 실행한다.

  1. 포괄적 벤치마크 구축: 기존 벤치마크 대비 6배 이상의 차트 유형(18개 vs 3-10개)과 5배 이상의 분야 주제(22개)를 포함하는 ChartX 데이터셋 개발. EM, SCRM, GPT-accuracy, GPT-score 등 다층적 평가 지표 도입
  2. 해석가능성 강화 모델: 차트 구조 추출 → 데이터 기반 추론의 순차적 처리 파이프라인으로 각 단계의 근거를 명확하게 제시. Instruction adapter를 통한 동적 작업 선택으로 상호작용성 향상
  3. 성능 우월성: ChartVLM이 기존 차트 특화 모델들과 범용 MLLM(LLaVA, Qwen-VL 등)을 능가하며 GPT-4V와 유사 수준의 성능 달성

How

Figure 3

Figure 3: 차트 데이터 수집 및 품질 검증 파이프라인

ChartX 데이터셋 구축

ChartVLM 모델 구조

Originality

Limitation & Further Study

Evaluation

총평: ChartX & ChartVLM은 차트 이해 벤치마킹과 모델 개발에 있어 중요한 이정표를 제시한다. 특히 해석가능성을 강조하는 설계 철학과 공개 데이터셋의 규모는 해당 분야의 향후 연구 방향을 형성할 가능성이 높다. 다만 실제 자연 차트 데이터 통합과 모델 스케일링 측면에서 추가 개선이 필요하다.

같이 보면 좋은 논문

기반 연구
범용 차트 멀티모달 모델의 기초가 되는 포괄적 평가 프레임워크를 제공한다
다른 접근
포괄적 차트 이해 평가와 특화된 차트-코드 변환의 서로 다른 멀티모달 차트 처리 접근법을 비교할 수 있다
다른 접근
차트 코드 변환에서 전문화된 MLLM과 포괄적 차트 이해 모델의 서로 다른 접근법을 비교할 수 있다
후속 연구
차트 이해에서 대규모 멀티모달 차트 데이터셋으로의 연구 확장을 보여준다
← 목록으로 돌아가기