저자: Zhihan Zhang, Yixin Cao, Lizi Liao | 날짜: 2025 | DOI: 10.1145/3746027.3755596
차트-to-코드 생성 작업의 예시로, 실행 가능성(Executability), 시각적 충실도(Visual Fidelity), 속성 정확도(Attributes Correctness) 등 다중 차원으로 평가됨
차트 이미지를 실행 가능한 플로팅 코드로 변환하는 차트-to-코드 생성 작업에서, 다중모달 대규모 언어 모델(MLLM)의 성능을 향상시키기 위해 이중 모드(code + image) 보상 메커니즘과 반복적 선호도 학습을 결합한 프레임워크를 제시한다.
Chart2Code의 개요: 휴리스틱 F1 기반 코드 점수 매기기와 시각 보상 모델을 포함한 이중 보상 메커니즘, 그리고 구조화된 변형 생성 전략과 종횡별(aspect-level) 피드백 데이터셋
각 반복 단계에서 생성되는 보상 신호의 흐름
1. 이중 보상 메커니즘 (Dual Rewarding Mechanism)
2. 구조화된 변형 생성 전략 (Structured Variant Generation)
3. 반복적 선호도 학습 (Iterative Preference Learning)
4. 종횡별 피드백 데이터셋 구성
총평: 차트-to-코드 생성의 본질적 이중성(코드 정확성 + 시각적 충실도)을 직접 반영한 이중 보상 메커니즘과 반복적 선호도 학습의 결합이 효과적이며, 범용 MLLM의 실질적 향상을 달성한 점이 주목할 만함. 다만 보상 함수의 휴리스틱 성격과 도메인 확장성에 대한 추가 검증이 필요함.