FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback

Motivation

Known: 과학 논문의 그림 캡션은 독자 이해에 필수적이며, 기존 연구는 문서에서 추출한 그림-캡션 쌍으로 학습하고 있음
Gap: arXiv cs.CL 논문의 50% 이상의 캡션이 도메인 전문가들에게 도움이 되지 않는다고 평가되었으며, 기존 모델은 '유용성(helpfulness)', '명확성(explainability)', '시각적 설명력(visual-descriptiveness)' 측면에서 독자 선호도를 반영하지 못함
Why: 저품질 학습 데이터로 훈련된 모델은 자동으로 생성된 캡션이 독자 선호도와 불일치하는 문제 발생
Approach: (1) 작은 규모의 인간 주석 데이터로 피드백 예측 모델 학습, (2) 오프라인 Upside-Down RL(UDRL)을 이용한 보상 조건부 행동 복제(reward-conditioned behavioral cloning) 기반 효율적 최적화

Figure 1: RLHF Framework for Figure-Caption Generative Models - 소수의 인간 피드백 그림-캡션 쌍에서 학습한 피드백 예측 모델을 통해 대규모 학습 코퍼스에 대한 피드백 추론

성능 향상: BLIP을 기반 모델로 사용할 때, ROUGE에서 35.7%, BLEU에서 16.9%, METEOR에서 9% 평균 성능 향상 달성
확장 가능한 피드백 생성: 작은 규모의 인간 주석 데이터(M ≪ N, 예: N=100,000일 때 M=100)로부터 대규모 학습 데이터셋에 대한 자동 피드백 점수 예측 가능
보정된 보상 모델: 훈련된 보상 모델이 잘 보정되어 있으며, 지면 진실 주석 통계가 추론된 주석 통계와 일치함을 실증적으로 입증
공개 벤치마크: 향후 RLHF 기술 개발을 위한 대규모 벤치마크 데이터셋 공개

Figure 2: Human Feedback Prediction Model의 결과 - 세 가지 그림-캡션 평가 지표에 대한 예측 성능

프레임워크 구성:

Step 1 - 인간 피드백 수집: M개의 그림-캡션 쌍 {I_h, T_h}에 대해 도메인 전문가가 k개의 평가 메트릭(유용성, OCR 콘텐츠, 핵심 내용 등) 점수 부여
Step 2 - 피드백 예측 모델 학습: 회귀 모델 R(x_i, θ)_k를 학습하여 각 캡션의 k개 평가 점수 예측
- 임베딩 함수 l(·, θ_l): 캡션을 고정된 차원 표현으로 변환
- 회귀 함수 g(·, θ_g): 평가 점수 생성
- MSE 손실 L_R = Σ(ŷ_i - y_i)²로 회귀 함수만 학습
Step 3 - 대규모 데이터셋에 점수 할당: 학습된 모델로 N개의 훈련 샘플 모두에 대한 피드백 점수 자동 예측
Step 4 - 오프라인 UDRL 기반 최적화: 예측된 보상 점수를 기반으로 reward-conditioned behavioral cloning 수행
- 온정책(on-policy) 알고리즘 대비 계산 효율성 우수
- 모델 훈련 중 보상 모델 필요 없음

새로운 RLHF 접근법: 기존의 온정책 강화학습 대신 오프라인 Upside-Down RL을 적용하여 계산 효율성과 단순성 달성
확장 가능한 피드백 메커니즘: 소수의 인간 주석만으로 대규모 데이터셋에 대한 자동 품질 평가 가능하도록 설계한 일반화된 캡션 점수 메커니즘
다중 그래뉼래러티(granularity) 피드백: 여러 차원의 평가 지표(유용성, 설명력, 시각적 설명력)를 동시에 모델에 반영 가능
공개 벤치마크 데이터셋: 향후 그림-캡션 생성 연구를 위한 인간 피드백이 포함된 첫 대규모 벤치마크 제공

데이터셋 크기 및 도메인: 실험이 주로 과학 논문(arXiv)의 그림에 국한되어 있으며, 다른 도메인(의료 영상, 뉴스 기사 등)에 대한 일반화 가능성 미검증
피드백 메트릭의 범위: 현재 '유용성', 'OCR 콘텐츠', '핵심' 등 제한된 평가 차원만 사용하고 있으며, 추가 차원(창의성, 간결성 등) 탐색 필요
인간 평가의 주관성: 도메인 전문가 간 평가 불일치(inter-annotator agreement)에 대한 상세 분석 부재
모델 아키텍처 의존성: BLIP 등 특정 기반 모델에서의 성능만 주로 보고되어 있으며, 다양한 최신 비전-언어 모델에 대한 검증 필요
후속 연구 방향:
- 온라인 RLHF 방식과의 정량적 비교 연구
- 멀티모달 입력(이미지 + 표 데이터 + 메타데이터)을 활용한 고도화
- 전이 학습을 통한 저자원 도메인 적응