Multi-llm collaborative caption generation in scientific documents

저자: Jaeyoung Kim, Jongho Lee, Hong-Jun Choi, Ting-Yao Hsu, Chieh-Yang Huang, Sungchul Kim, Ryan A. Rossi, Tong Yu, C. Lee Giles, Ting-Hao Huang, Sungchul Choi | 날짜: 2025 | DOI: N/A


Essence

과학 논문의 도형(figure) 캡션 생성은 시각 정보와 텍스트 문맥을 모두 활용해야 하는 복합 작업인데, 본 논문은 여러 LLM의 협업을 통해 고품질 캡션을 자동 생성하는 통합 프레임워크 MLBCAP를 제안한다.

Motivation

Achievement

Figure 1: Overview of the collaborative framework integrating multiple LLMs for caption generation in scientific documents. Initially, two MLLMs generate figure descriptions. Next, three fine-tuned models and GPT-4o generate candidate captions. Finally, GPT-4o selects and refines the best caption from the candidates.
  1. 저품질 데이터 필터링: 미세조정된 LLaVA 모델을 통해 훈련 데이터의 품질을 평가하여 고품질 캡션(점수 5-6)만 선별. Kendall's tau 계수 0.5502로 GPT-4o와의 일치도 확인.
  2. 인간 평가 우수성: 도메인 전문가(Ph.D. 학생)의 평가에서 MLBCAP가 저자가 작성한 원본 캡션보다 선호됨을 입증. 35,935개의 고품질 전처리된 훈련 데이터 구축.
  3. 장단형 캡션 생성: 학술지의 페이지 제약을 고려하여 장문(50단어) 및 단문(30단어) 버전의 캡션을 동시에 생성 가능.

How

Figure 2: Human evaluation results showing preferences for generated captions

4.1 품질 평가 모듈

4.2 다양한 캡션 생성 모듈

4.3 판단 및 정제 모듈

Originality

Limitation & Further Study

Evaluation

총평: 과학 도형 캡션 생성의 현실적 과제(저품질 훈련 데이터, 멀티모달 정보 통합)를 체계적으로 해결하는 실용적 프레임워크이며, 인간 평가를 통한 우수성 입증이 강점이나, 경제성 있는 모델 경량화 및 평가의 통계적 엄밀성 강화가 필요하다.

같이 보면 좋은 논문

기반 연구
과학 도형 캡션 생성을 위한 기본 방법론과 데이터셋의 기반 연구입니다.
다른 접근
캡션 생성에서 멀티 LLM 협업과 기계-인-루프라는 서로 다른 협업 패러다임입니다.
다른 접근
창의적 이미지 캡션 작성과 과학 캡션 생성에서 기계-인-루프와 멀티 LLM이라는 서로 다른 협업 방식입니다.
다른 접근
위키피디아 전기문 생성과 과학 논문 캡션 생성이라는 서로 다른 장르의 텍스트 생성 문제입니다.
다른 접근
과학 캡션 생성에서 멀티 LLM 협업과 증거 강조라는 서로 다른 품질 향상 접근법입니다.
다른 접근
표-텍스트 생성에서 증거 강조와 멀티 LLM 협업이라는 서로 다른 품질 향상 접근법입니다.
후속 연구
도형-캡션 생성 프레임워크를 멀티 LLM 협업으로 발전시킨 고도화된 접근법입니다.
후속 연구
다중 LLM 협업을 통한 과학 문서 캡션 생성이 단일 모델 접근법을 발전시킨 연구이다
후속 연구
다중 LLM 협업 캡션 생성 기법이 과학 문서의 멀티모달 정렬 품질 개선에 활용됩니다.
← 목록으로 돌아가기