Enhancing chart-to-code generation in multimodal large language models via iterative dual preference learning

저자: Zhihan Zhang, Yixin Cao, Lizi Liao | 날짜: 2025 | DOI: 10.1145/3746027.3755596


Essence

Figure 1

차트-to-코드 생성 작업의 예시로, 실행 가능성(Executability), 시각적 충실도(Visual Fidelity), 속성 정확도(Attributes Correctness) 등 다중 차원으로 평가됨

차트 이미지를 실행 가능한 플로팅 코드로 변환하는 차트-to-코드 생성 작업에서, 다중모달 대규모 언어 모델(MLLM)의 성능을 향상시키기 위해 이중 모드(code + image) 보상 메커니즘과 반복적 선호도 학습을 결합한 프레임워크를 제시한다.

Motivation

Achievement

Figure 2

Chart2Code의 개요: 휴리스틱 F1 기반 코드 점수 매기기와 시각 보상 모델을 포함한 이중 보상 메커니즘, 그리고 구조화된 변형 생성 전략과 종횡별(aspect-level) 피드백 데이터셋

  1. 성과1 - 다중 MLLM에서의 일관된 성능 향상: 세 개의 기본 MLLM과 두 개의 벤치마크에서 실험하여 프레임워크가 다양한 초기화 설정에서도 실질적인 성능 개선을 달성함을 입증
  2. 성과2 - 전문화된 모델과의 경쟁력: 범용 오픈소스 MLLM들을 차트 전문 모델 및 일부 독점 시스템 수준으로 향상시켜, 고품질의 시각적으로 충실한 플로팅 코드 생성 능력을 확보
  3. 성과3 - 스케일 가능하고 타겟팅된 감독: 구조화된 변형 생성 전략과 시각 보상 모델을 통해 고품질의 종횡별 선호도 쌍 생성을 효율적으로 수행 가능하게 함

How

Figure 3

각 반복 단계에서 생성되는 보상 신호의 흐름

1. 이중 보상 메커니즘 (Dual Rewarding Mechanism)

2. 구조화된 변형 생성 전략 (Structured Variant Generation)

3. 반복적 선호도 학습 (Iterative Preference Learning)

4. 종횡별 피드백 데이터셋 구성

Originality

Limitation & Further Study

Evaluation

총평: 차트-to-코드 생성의 본질적 이중성(코드 정확성 + 시각적 충실도)을 직접 반영한 이중 보상 메커니즘과 반복적 선호도 학습의 결합이 효과적이며, 범용 MLLM의 실질적 향상을 달성한 점이 주목할 만함. 다만 보상 함수의 휴리스틱 성격과 도메인 확장성에 대한 추가 검증이 필요함.

← 목록으로 돌아가기