저자: Jonathan C. Roberts, Kai Han, Neil Houlsby, Samuel Albanie | 날짜: 2024 | DOI: N/A
대규모 멀티모달 모델(LMM)의 과학 논문 그림 해석 능력을 평가하기 위한 벤치마크 SciFIBench를 제시하며, 2000개의 고품질 문제와 28개 모델의 종합 평가를 통해 현재 LMM의 과학 분야 적용 가능성을 체계적으로 검증한 연구이다.
문제 구성 방법론:
작업 정의:
총평: SciFIBench는 과학 분야의 LMM 능력 평가에 필수적인 벤치마크로서, 체계적인 문제 구성 방법론과 포괄적 평가를 통해 현재 모델의 한계를 명확히 드러낸다. 공개 릴리스와 다양한 분석을 통해 학계의 중요한 기여이나, 도메인 확대 및 평가 방식의 추가 검증이 향후 과제이다.