저자: Ghazal Khalighinejad, Sharon Scott, Ollie Liu, Kelly Anderson, Rickard Stureborg | 날짜: 2024 | DOI: 10.48550/arXiv.2410.20494
그림 1: 텍스트와 그림 간의 상호연결된 데이터를 포함하는 논문의 예시 및 샘플 특성과 구성 세부사항을 캡처하는 JSON 구조
재료과학 분야의 과학 논문에서 텍스트, 표, 그림에 분산된 구조화된 정보를 추출하는 멀티모달 정보 추출(Multimodal Information Extraction, MIE) 벤치마크를 제시한다. 324개의 전문가 주석 논문과 1,688개의 복잡한 구조화된 JSON 파일로 구성된 MATVIX 데이터셋을 소개하며, 비전-랭귀지 모델(Vision-Language Models, VLMs)의 성능을 평가한다.
그림 2: 그림과 해당 샘플의 예시. 특성의 데이터 포인트들이 그림에서 추출됨을 보여줌
그림 3: BaTiO3 나노복합재료에서 손실 탄젠트의 감소와 유전 상수의 증가를 보여주는 예시
총평: 멀티모달 과학 문서 정보 추출이라는 명확한 공백을 채우며 체계적으로 설계된 벤치마크를 제공하는 점에서 높은 가치가 있으나, 제한된 도메인 범위와 현재 모델의 낮은 성능 그 자체가 개선의 긴급성을 보여주는 과제이다.