Sciverse: Unveiling the knowledge comprehension and visual reasoning of lmms on multi-modal scientific problems

저자: Z. J. Guo, Renrui Zhang, Hao Chen, Jialin Gao, Dongzhi Jiang, Jiaze Wang, Pheng‐Ann Heng | 날짜: 2025 | DOI: 미제공


Essence

Figure 1

Figure 1: 5가지 문제 버전과 과학적 CoT 평가 전략의 개요. 지식 수준을 달리하는 3가지 버전과 시각 정보 비중을 달리하는 2가지 버전, 그리고 단계별 평가 전략을 제시.

SCIVERSE는 대규모 멀티모달 모델(LMM)의 과학 문제 해결 능력을 세밀하게 평가하기 위한 벤치마크로, 1,147개 문제를 5가지 버전으로 변환한 5,735개 테스트 인스턴스를 제공하며, 과학 지식 이해, 멀티모달 콘텐츠 해석, 연쇄적 사고(CoT) 추론이라는 세 가지 핵심 차원을 체계적으로 평가한다.

Motivation

Achievement

Figure 2

Figure 2: SCIVERSE의 주제 분포. 물리학 2,010개(35.0%), 화학 1,880개(32.2%), 생물학 1,845개(32.8%).

  1. 포괄적 벤치마크 구축: 1,147개의 고품질 과학 문제를 5가지 버전으로 변환하여 5,735개의 평가 인스턴스를 포함하는 SCIVERSE 데이터셋 구축. 물리, 화학, 생물학 3개 주요 학문을 21개 세부 주제로 구분하고 고등학교부터 대학 수준까지 다양한 난이도 포함.
  2. 세밀한 평가 틀: 과학 문제 해결의 세 가지 차원을 각각 평가할 수 있는 다층 구조 제시:
    • 지식 이해: Knowledge-free → Knowledge-lite → Knowledge-rich로 점진적 지식 제공을 통해 지식 부족의 영향 측정
    • 멀티모달 해석: Vision-rich → Vision-only로 텍스트에서 시각 정보로의 점진적 전환을 통해 OCR 및 시각 인식 능력 평가
    • CoT 평가: 단순 정답 여부가 아닌 단계별 지식 오류와 논리 오류를 분리하여 평가
  3. 광범위한 실증 분석: GPT-4o, Claude, Gemini, LLaVA, Qwen-VL 등 다양한 폐쇄형 및 개방형 LMM 평가를 통해 현재 모델들의 과학 분야 한계를 드러냄:
    • 폐쇄형 모델이 개방형 모델보다 지식 이해와 시각 인식에서 우수
    • 모든 모델이 Vision-only 문제에서 심각하게 성능 저하 (실제 상황에 가까운 과제)
    • 폐쇄형 모델이 개방형 모델보다 높은 품질의 CoT 추론 단계 생성

How

Figure 1

Figure 1 (하단): 과학적 CoT 평가 전략. 단계별 분류, 지식 및 논리 점수 산출.

데이터 수집 및 변환

5가지 문제 버전 설계

과학 지식 이해 평가:

멀티모달 콘텐츠 해석 평가:

과학적 CoT 평가 전략

Originality

Limitation & Further Study

Evaluation

총평: SCIVERSE는 과학 문제 해결에서 LMM의 지식 이해, 멀티모달 해석, 추론 능력을 체계적으로 분석할 수 있는 잘 설계된 벤치마크로, 특히 현실적인 Vision-only 시나리오와 단계별 오류 분석이 강점이지만, 평가 도구 의존성과 데이터 규모 측면에서 개선의 여지가 있다.

같이 보면 좋은 논문

기반 연구
정리 기반 질문 답변의 기초 연구로서 후속 멀티모달 과학 추론 벤치마크 개발에 영향을 미쳤음
기반 연구
GPT-4V의 의료 영상 진단 능력 평가가 과학 전반의 멀티모달 추론 벤치마크 개발에 방법론적 기초를 제공함
기반 연구
SciBench의 대학 수준 과학 문제 해결 평가 방법론을 멀티모달 환경으로 발전시킨 후속 연구임
기반 연구
Gemini의 의료 멀티모달 능력 개발이 과학 전반의 멀티모달 추론 평가 벤치마크 설계에 기술적 기반을 제공함
다른 접근
Gemini 기반 의료 멀티모달 능력과 SCIVERSE의 과학 문제 해결 평가 방법론을 비교 분석할 수 있음
후속 연구
GPT-4V의 의료 영상 진단 평가 연구를 과학 전반의 멀티모달 추론 능력으로 확장한 벤치마크임
← 목록으로 돌아가기