Scicueval: A comprehensive dataset for evaluating scientific context understanding in large language models

저자: Jing Yu, Yuqi Tang, Kehua Feng, Lei Liang, Qiang Zhang, Keyan Ding, Huajun Chen | 날짜: 2025 | DOI: 10.48550/arXiv.2505.15094


Essence

Figure 1: Overview of the SciCUEval dataset

SciCUEval은 5개 과학 도메인, 3가지 데이터 모달리티, 4가지 질문 유형을 포함하는 포괄적 벤치마크

본 논문은 대규모 언어모델(LLM)의 과학적 맥락 이해 능력을 평가하기 위한 포괄적 벤치마크 데이터셋 SciCUEval을 제안한다. 생물학, 화학, 물리학, 생의학, 재료과학 등 5개 도메인에 걸친 10개의 부분 데이터셋으로 구성되며, 비정형 텍스트, 구조화된 표, 지식 그래프 등 다양한 데이터 모달리티를 통합하여 LLM의 과학적 맥락 이해 능력을 체계적으로 평가한다.

Motivation

Achievement

  1. 포괄적 벤치마크 구축: 기존 벤치마크 대비 유일하게 다중 과학 도메인, 다양한 데이터 모달리티(텍스트, 표, 지식 그래프), 4가지 질문 유형(개방형 Q&A, 객관식, 참/거짓, 완성형)을 통합하는 과학적 맥락 이해 평가 스위트 제공
  2. 체계적 역량 평가 프레임워크: 관련 정보 식별(Relevant Information Identification), 정보 부재 감지(Information-absence Detection), 다중 정보원 통합(Multi-source Information Integration), 맥락 기반 추론(Context-aware Inference)의 4가지 핵심 역량을 체계적으로 측정
  3. 대규모 LLM 성능 분석: GPT-4, Claude, Gemini 등 최첨단 LLM의 강점과 한계를 세밀하게 분석하여 과학 도메인 LLM 개발 방향 제시

How

Figure 1에서 볼 수 있듯이 데이터 생성 파이프라인

데이터 생성 과정: 과학 데이터 수집 → 질문 답변 생성 → 검증

Originality

Limitation & Further Study

Evaluation

총평: SciCUEval은 과학 도메인 LLM 평가의 중요한 공백을 체계적으로 해결하는 포괄적 벤치마크로, 다중 도메인-다중 모달리티 조합과 4가지 핵심 역량 평가 프레임워크는 매우 우수하다. 다만 데이터 생성 방법론의 투명성 강화, 멀티모달 처리에 대한 명확한 전략 제시, 그리고 벤치마크 활용을 통한 실제 과학 LLM 개선 효과 입증이 필요하다.

같이 보면 좋은 논문

기반 연구
화학 분야 파운데이션 모델에 대한 관점 논문이 SciCUEval의 화학 도메인 평가 설계에 이론적 토대를 제공한다.
다른 접근
유체 지능 평가와 과학적 맥락 이해 평가가 LLM의 서로 다른 인지 능력을 측정한다.
후속 연구
LLM 신뢰성 평가 프레임워크를 과학적 맥락 이해 능력으로 확장하여 더 포괄적인 평가가 가능하다.
후속 연구
과학 큐레이션 평가를 SciKnowEval의 체계적 과학 지식 평가에서 더 포괄적인 과학적 역량 진단으로 확장했다.
← 목록으로 돌아가기