SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models

저자: Chuan Qin, Xin Chen, Chengrui Wang, Pengmin Wu, Xi Chen, Yihang Cheng, Jingyi Zhao, Meng Xiao, Xiangchao Dong, Qingqing Long, Boya Pan, Han Wu, Chengzan Li, Yuanchun Zhou, Hui Xiong, Hengshu Zhu | 날짜: 2025-03-12 | DOI: 10.48550/arXiv.2503.13503


Essence

과학 AI(AI4Science)의 준비 상태를 평가하기 위한 통합 벤치마킹 프레임워크로, 과학 데이터의 AI 준비도와 대규모 언어모델(LLM)의 과학 분야별 능력을 체계적으로 평가하는 종합 평가 체계를 제시한다.

Motivation

Achievement

Figure 1: SciHorizon 플랫폼 개요. 과학 데이터 평가, LLM 평가, 통합 플랫폼 구성
  1. 포괄적 데이터 AI-준비도 평가 프레임워크: Quality(완전성, 정확성, 일관성, 적시성), FAIRness(발견가능성, 접근성, 상호운용성, 재사용성), Explainability(다양성, 편향성 제거, 도메인 적용성, 과제 적용성), Compliance(출처, 윤리성, 안전성, 신뢰성) 등 4개 주요 차원과 15개 세부 차원으로 구성
  2. 멀티 분야 LLM 능력 평가: 수학, 물리, 화학, 생명과학, 지구우주과학을 포괄하여 Knowledge(지식), Understanding(이해), Reasoning(추론), Multimodality(다중성식), Values(과학적 가치) 등 5개 핵심 지표로 16개 평가 차원 구성
  3. 실증 평가: 2018-2023년 peer-reviewed 저널의 약 1,500개 데이터세트를 분석하여 지구과학과 생명과학 AI-준비 데이터 추천 목록 제시, 20개 이상의 개방형/폐쇄형 LLM 종합 평가 수행

How

Figure: SciHorizon 프레임워크의 이중 평가 구조

데이터 평가 방법론:

LLM 평가 방법론:

평가 대상:

Originality

Limitation & Further Study

Evaluation

총평: SciHorizon은 AI4Science의 현재 준비 상태를 진단하기 위한 야심찬 통합 프레임워크로, 특히 과학적 가치 평가와 공개 플랫폼 제공을 통해 학계에 의미 있는 기여를 하고 있다. 다만 평가 방법론의 자동화, 전문가 편향 제어, 시간에 따른 동적 업데이트 메커니즘 강화가 필요하며, 프레임워크의 장기적 유효성 검증을 위한 후속 연구가 지속되어야 한다.

← 목록으로 돌아가기