저자: Jaeyoung Kim, Jongho Lee, Hong-Jun Choi, Ting-Yao Hsu, Chieh-Yang Huang, Sungchul Kim, Ryan A. Rossi, Tong Yu, C. Lee Giles, Ting-Hao Huang, Sungchul Choi | 날짜: 2025 | DOI: N/A
과학 논문의 도형(figure) 캡션 생성은 시각 정보와 텍스트 문맥을 모두 활용해야 하는 복합 작업인데, 본 논문은 여러 LLM의 협업을 통해 고품질 캡션을 자동 생성하는 통합 프레임워크 MLBCAP를 제안한다.
총평: 과학 도형 캡션 생성의 현실적 과제(저품질 훈련 데이터, 멀티모달 정보 통합)를 체계적으로 해결하는 실용적 프레임워크이며, 인간 평가를 통한 우수성 입증이 강점이나, 경제성 있는 모델 경량화 및 평가의 통계적 엄밀성 강화가 필요하다.