저자: Stanley Cao, K. Liu | 날짜: 2024 | DOI: arXiv:2407.11008
과학 논문의 그래프 및 도형에 대한 자동 캡션 생성을 위해 CLIP+GPT-2 모델에 논문의 메타데이터(제목, 초록, 참고문헌 인용 텍스트)를 SciBERT를 통해 통합한 멀티모달 접근법을 제시한다. 특히 텍스트 정보만 사용한 SciBERT+GPT-2 모델이 BLEU 6.71을 달성하며 기존 CNN+LSTM 기반선(BLEU 2.59)을 크게 상회했다.
총평: 과학 도형 캡셔닝에서 텍스트 메타데이터의 중요성을 명확히 입증한 실용적 연구이나, 멀티모달 모델의 설계 결함(이미지 기여도 역설)을 노출함으로써 향후 보다 근본적인 아키텍처 혁신이 필요함을 시사한다.