저자: He Wang, Longteng Guo, Pengkang Huo, Xuanxu Lin, Yichen Yuan, Jie Jiang, Jing Liu | 날짜: 2026-01-01 | DOI: 10.48550/arXiv.2601.00264
그림 2: 원본 캡션과 의미 강화 캡션의 문자 길이 분포. 원본 캡션(주황색)은 평균 267±261자에서 강화된 캡션(파란색)은 759±251자로 2.8배 확장됨
과학 논문의 2.5백만 편에서 수집한 1,550만 개의 이미지-텍스트 쌍으로 구성된 대규모 멀티모달 데이터셋을 제시한다. Qwen-VL 기반 의미 강화 파이프라인을 통해 희소한 원본 캡션을 논문의 추상, 인용 맥락과 결합하여 자급식의 과학적으로 근거 있는 설명으로 변환하며, CLIP 점수 기준 18.21% 정렬 개선을 달성한다.
그림 1: S1-MMAlign의 주제 분포. 물리학(33%), 컴퓨터과학(25%), 천문학(13%), 생물학(10%), 수학(9%), 기타(10%)
그림 3: S1-MMAlign 데이터 구성 파이프라인. (1) 데이터 수집 → (2) 전처리 → (3) AI 처리 → (4) 구조화된 출력 생성
Phase 1: 데이터 수집
Phase 2: 전처리
Phase 3: 의미 강화
Phase 4: 구조화된 출력
한계:
후속 연구:
총평: 과학 멀티모달 학습의 의미 간극을 처음 대규모로 정의하고 지식 보강 맥락 주입으로 우아하게 해결한 데이터셋으로, 공개 배포를 통해 AI for Science 커뮤니티의 거대한 기초 자원이 될 것으로 기대된다. 다만 강화 파이프라인의 오류율, 도메인별 정확성, 하위 과제에서의 실질적 성능 이득에 대한 정밀한 검증이 보완되면 더욱 견고할 것이다.