저자: Zhishen Yang, Raj Dabre, Hideki Tanaka, Naoaki Okazaki | 날짜: 2023 | DOI: 10.48550/ARXIV.2306.03491
그림 1: 멘션 문단과 OCR 토큰이 없으면 데이터 해석이 불가능함을 보여주는 예시
과학 논문의 도표 캡션 자동 생성을 지식 증강 이미지 캡셔닝(knowledge-augmented image captioning) 문제로 재정의하고, 멘션 문단(mention-paragraph)과 OCR 토큰을 포함한 SciCap+ 데이터셋을 구축하여 다중모드(multimodal) 컨텍스트 정보가 캡션 생성에 미치는 영향을 분석한 연구이다.
그림 2: SciCap+ 데이터셋 생성을 위한 데이터 증강 워크플로우
그림 3: 멘션 문단과 OCR 토큰과 도표 캡션 간 관련성 점수 분포 (코헨 카파: 0.28)
데이터 수집 및 처리:
모델 아키텍처:
인코더 구성:
한계:
후속 연구:
총평: 과학 논문 도표 캡션 생성을 위한 지식 증강 데이터셋 구축이라는 실용적 기여는 분명하지만, 모델 혁신이 부재하고 인간 평가 신뢰도 문제가 있어 순수 학술적 기여는 중상 수준이다. 공개 데이터셋의 가치와 컨텍스트 정보의 효과 입증이 주요 의의이다.