저자: Ting-Yao Hsu, C Lee Giles, Ting-Hao Huang | 날짜: 2021 | DOI: 10.18653/v1/2021.findings-emnlp.277
과학 논문의 그래프, 차트 등 과학적 도형(scientific figures)에 대한 자동 캡션 생성을 위해 arXiv 논문 29만여 편에서 추출한 200만 개 이상의 실제 도형-캡션 쌍으로 구성된 대규모 데이터셋 SciCap을 구축하고, 기준 모델들을 통해 과학 도형 캡션 생성의 가능성과 과제를 제시한다.
총평: 과학 도형 캡션 생성 분야에서 첫 대규모 실제 데이터셋을 제공하고 체계적인 전처리 파이프라인을 구축했다는 점에서 의의가 있으며, 시각장애인 접근성이라는 사회적 가치도 강조했으나, 한정된 도형 유형과 기본적인 모델 구조, BLEU 지표만의 평가 등에서 개선 여지가 있다.