저자: Kehua Feng, Xinyi Shen, Weijie Wang, Xiang Zhuang, Yuqi Tang, Qiang Zhang, Keyan Ding | 날짜: 2024 | DOI: arXiv:2406.09098
Figure 1: SciKnowEval의 전체 구조. (a) 4개 과학 영역, (b) 다양한 데이터 소스, (c) 4가지 질문 유형, (d) 5단계 진행적 지식 수준별 예제, (e) 영역 및 수준별 질문 분포
본 논문은 대규모 언어모델(LLM)의 과학 지식을 5단계(기억, 이해, 추론, 판별, 적용)로 체계적으로 평가하는 28K 규모의 종합 벤치마크 데이터셋 SciKnowEval을 제안한다. 생물학, 화학, 물리학, 재료과학 4개 영역에서 LLM의 과학적 역량을 다층적으로 진단하고 20개 모델을 평가하여 개선의 필요성을 제시한다.
Figure 2: 3가지 데이터 수집 방법. (I) 문헌에서 새로운 QA 생성, (II) 기존 QA 재구성, (III) 과학 데이터베이스를 텍스트 형식으로 변환
총평: SciKnowEval은 기존 벤치마크의 한계를 명확히 인식하고 철학적 기초를 갖춘 체계적인 5단계 평가 프레임워크를 제시하며, 28K 규모의 다양한 고품질 데이터셋을 구축하여 과학 LLM 평가의 새로운 표준을 제안한다는 점에서 의의가 크다. 특히 과학 윤리와 안전성 평가를 명시적으로 포함한 점이 실용적 가치를 높인다. 다만 자동 생성 데이터의 검증 비율 명시, 고난도 문제 비율 확충, 주관식 평가의 정성적 메트릭 강화가 필요하다.