SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

Essence

대규모 멀티모달 모델(LMM)의 과학 논문 그림 해석 능력을 평가하기 위한 벤치마크 SciFIBench를 제시하며, 2000개의 고품질 문제와 28개 모델의 종합 평가를 통해 현재 LMM의 과학 분야 적용 가능성을 체계적으로 검증한 연구이다.

Motivation

Known: GPT-4V, Gemini 등 최신 LMM은 다양한 분야(의료, 금융, 수학)에서 우수한 일반화 성능을 보이고 있으며, 과학 연구 보조 도구로 활용될 가능성이 높음
Gap: 과학 논문의 핵심인 복잡한 그림 해석 능력에 대해 정량적 평가 벤치마크가 부재하며, 현재 모델들의 과학 그림 이해 능력이 명확히 특성화되지 않음
Why: 과학 이미지는 고밀도의 의미론적 정보와 도메인 특화 표현을 포함하고 있어 일반 이미지 벤치마크로는 평가 불가능하며, 전문 지식이 필요한 ground truth 구성의 어려움
Approach: arXiv 논문의 그림-캡션 쌍을 다중선택 문제로 변환하고, 적대적 필터링(adversarial filtering)과 인간 검증을 통해 고품질 문제 집합 구성

Achievement

Figure 1: SciFIBench 개요. 왼쪽: arXiv 논문에서 추출한 2000개의 다중선택형 과학 그림 해석 문제. 오른쪽: 28개 LMM 평가 프레임워크

벤치마크 구축: arXiv에서 추출한 94k(CS) + 102k(일반) 그림-캡션 쌍으로부터 8개 범주의 2000개 고품질 문제 생성. 모든 문제에 대해 인간 검증 수행하여 응답 가능성 보장
포괄적 평가: GPT-4o, Gemini 1.5를 포함한 28개 LMM 평가로 현재 최고 성능 모델도 인간 기준선에 미치지 못함을 확인. 적대적 필터링이 문제 난이도 유의미하게 증가
충실성 분석: LLM(Gemini-Pro)을 활용한 자동 평가 방법 개발 및 모델의 추론 일관성(reasoning faithfulness) 프로빙 실시

How

Figure 2: SciFIBench 문제의 그림 크기 및 캡션 길이 분포

문제 구성 방법론:

임베딩 기반 선택: CLIP 기반 비전-언어 모델로 그림-캡션 쌍의 결합 임베딩(2048차원) 생성
벡터 데이터베이스 구축: Faiss를 이용하여 임베딩 벡터 데이터베이스 구성
적대적 필터링: 각 질문에 대해 k-최근접이웃(k-NN)에서 유클리드 거리 기반으로 유사도 높은 오답 선택지 선택 및 유사도 역치 이하의 중복 제거
난이도 기반 샘플링: 오답 선택지들의 평균 거리를 난이도 지표로 사용하여 어려운 문제 우선 샘플링
인간 검증: 각 범주별로 가장 어려운 문제들에 대해 도메인 전문가가 "응답 가능성" 검증

작업 정의:

Figure→Caption: 주어진 그림에 대해 5개 캡션 중 정답 선택
Caption→Figure: 주어진 캡션에 대해 5개 그림 중 정답 선택

Originality

차별성: 기존의 ChartQA, FigureQA 등 차트 특화 벤치마크와 달리 일반 과학 논문의 다양한 그림 유형 포함. 정량적 LMM 평가에 초점으로 기존 정성적 분석 연구와 구별
방법론: arXiv 메타데이터를 활용한 자동화된 고품질 문제 생성 파이프라인 및 강력한 LLM을 평가기로 활용하는 창의적 자동 평가 방식
규모: 2000개 문제 규모로 충분한 통계적 신뢰도 확보 및 커뮤니티 활용성 극대화
다중 평가 관점: 단순 정확도를 넘어 추론 충실성(reasoning faithfulness)과 지시 따르기(instruction-following) 능력 프로빙

Limitation & Further Study

데이터 편향: arXiv CS 및 특정 범주에 집중된 데이터로 인한 도메인 편향 가능성. 다양한 과학 분야 확대 필요
선택지 크기 고정: 모든 문제를 5개 선택지로 제한하여 실제 응용의 다양한 상황 반영 부족
자동 평가 신뢰성: Gemini-Pro의 평가 정확도 검증 부족. 모델 편향이 평가에 영향 미칠 가능성
인간 기준선: 전문가 1인 검증으로 인한 잠재적 주관성. 다중 평가자 합의 방식 도입 필요
후속 연구 방향:
- 의료, 물리학 등 다양 분야 데이터 추가
- Few-shot 학습 및 체인-오브-생각(chain-of-thought) 프롬프팅 효과 분석
- 미세 조정(fine-tuning) 가능성 탐색
- 그림 내 특정 요소(축, 범례 등) 해석 능력에 대한 세분화된 분석

Evaluation

총평: SciFIBench는 과학 분야의 LMM 능력 평가에 필수적인 벤치마크로서, 체계적인 문제 구성 방법론과 포괄적 평가를 통해 현재 모델의 한계를 명확히 드러낸다. 공개 릴리스와 다양한 분석을 통해 학계의 중요한 기여이나, 도메인 확대 및 평가 방식의 추가 검증이 향후 과제이다.

같이 보면 좋은 논문

기반 연구

SciCap: Generating Captions for Scientific Figures

과학 그림 캡셔닝의 기초 연구에서 포괄적인 그림 이해 평가로의 발전 과정을 보여준다

기반 연구

Scidqa: A deep reading comprehension dataset over scientific papers

과학 그림 이해 벤치마크가 깊이 독해 데이터셋의 시각적 추론 평가 기반이다.

다른 접근

Scimage: How good are multimodal large language models at scientific text-to-image generation? arXiv preprint arXiv:2412.02368, 2024.

SciFIBench와 Scimage 모두 멀티모달 LLM의 과학적 이미지 이해 능력을 평가하는 벤치마크이지만 서로 다른 평가 차원을 제시한다.

후속 연구

Scimage: How good are multimodal large language models at scientific text-to-image generation? arXiv preprint arXiv:2412.02368, 2024.

과학 그림 이해 벤치마크에서 멀티모달 모델의 과학 이미지 전반적 해석 능력 평가로의 확장이다

응용 사례

Gemini: a family of highly capable multimodal models

Gemini와 같은 멀티모달 모델의 과학 그림 해석 능력을 체계적으로 평가하는 전문 벤치마크이다

응용 사례

Gemini: a family of highly capable multimodal models

Gemini의 과학 그림 이해 능력을 체계적으로 평가하는 벤치마크로 실제 활용성을 검증할 수 있다