저자: Z. J. Guo, Renrui Zhang, Hao Chen, Jialin Gao, Dongzhi Jiang, Jiaze Wang, Pheng‐Ann Heng | 날짜: 2025 | DOI: 미제공
Figure 1: 5가지 문제 버전과 과학적 CoT 평가 전략의 개요. 지식 수준을 달리하는 3가지 버전과 시각 정보 비중을 달리하는 2가지 버전, 그리고 단계별 평가 전략을 제시.
SCIVERSE는 대규모 멀티모달 모델(LMM)의 과학 문제 해결 능력을 세밀하게 평가하기 위한 벤치마크로, 1,147개 문제를 5가지 버전으로 변환한 5,735개 테스트 인스턴스를 제공하며, 과학 지식 이해, 멀티모달 콘텐츠 해석, 연쇄적 사고(CoT) 추론이라는 세 가지 핵심 차원을 체계적으로 평가한다.
Figure 2: SCIVERSE의 주제 분포. 물리학 2,010개(35.0%), 화학 1,880개(32.2%), 생물학 1,845개(32.8%).
Figure 1 (하단): 과학적 CoT 평가 전략. 단계별 분류, 지식 및 논리 점수 산출.
과학 지식 이해 평가:
멀티모달 콘텐츠 해석 평가:
총평: SCIVERSE는 과학 문제 해결에서 LMM의 지식 이해, 멀티모달 해석, 추론 능력을 체계적으로 분석할 수 있는 잘 설계된 벤치마크로, 특히 현실적인 Vision-only 시나리오와 단계별 오류 분석이 강점이지만, 평가 도구 의존성과 데이터 규모 측면에서 개선의 여지가 있다.