저자: Ashish Singh, Prateek Agarwal, Zixuan Huang, Arpita Singh, Tong Yu, Sungchul Kim, Victor Bursztyn, Nikos Vlassis, Ryan A. Rossi | 날짜: 2023 | DOI: 10.48550/ARXIV.2307.10867
과학 논문의 그림을 설명하는 캡션 생성 모델을 인간 피드백과 강화학습(RLHF)으로 최적화하는 프레임워크와 대규모 벤치마크 데이터셋을 제시한다. 기존의 낮은 품질 캡션 데이터를 학습한 모델 대신, 도메인 전문가 피드백으로 학습된 보상 모델을 통해 독자 선호도에 정렬된 고품질 캡션 생성을 달성한다.
Figure 1: RLHF Framework for Figure-Caption Generative Models - 소수의 인간 피드백 그림-캡션 쌍에서 학습한 피드백 예측 모델을 통해 대규모 학습 코퍼스에 대한 피드백 추론
Figure 2: Human Feedback Prediction Model의 결과 - 세 가지 그림-캡션 평가 지표에 대한 예측 성능
프레임워크 구성:
총평: 이 논문은 그림 캡션 생성의 현실적 문제(저품질 학습 데이터)를 인간 피드박과 오프라인 강화학습으로 효과적으로 해결하고, 대규모 공개 벤치마크 기여로 커뮤니티 가치를 제공한다. 다만 평가 메트릭 검증의 엄밀성 강화와 다양한 도메인·모델에 대한 일반화 검증이 진행되면 더욱 강한 논문이 될 수 있다.