저자: Jing Yu, Yuqi Tang, Kehua Feng, Lei Liang, Qiang Zhang, Keyan Ding, Huajun Chen | 날짜: 2025 | DOI: 10.48550/arXiv.2505.15094
SciCUEval은 5개 과학 도메인, 3가지 데이터 모달리티, 4가지 질문 유형을 포함하는 포괄적 벤치마크
본 논문은 대규모 언어모델(LLM)의 과학적 맥락 이해 능력을 평가하기 위한 포괄적 벤치마크 데이터셋 SciCUEval을 제안한다. 생물학, 화학, 물리학, 생의학, 재료과학 등 5개 도메인에 걸친 10개의 부분 데이터셋으로 구성되며, 비정형 텍스트, 구조화된 표, 지식 그래프 등 다양한 데이터 모달리티를 통합하여 LLM의 과학적 맥락 이해 능력을 체계적으로 평가한다.
데이터 생성 과정: 과학 데이터 수집 → 질문 답변 생성 → 검증
총평: SciCUEval은 과학 도메인 LLM 평가의 중요한 공백을 체계적으로 해결하는 포괄적 벤치마크로, 다중 도메인-다중 모달리티 조합과 4가지 핵심 역량 평가 프레임워크는 매우 우수하다. 다만 데이터 생성 방법론의 투명성 강화, 멀티모달 처리에 대한 명확한 전략 제시, 그리고 벤치마크 활용을 통한 실제 과학 LLM 개선 효과 입증이 필요하다.