EarthSE: A benchmark evaluating earth scientific exploration capability for large language models

저자: Wanghan Xu, Xiangyu Zhao, Yuhao Zhou, Xiaoyu Yue, Ben Fei, Fenghua Ling, Wenlong Zhang, Lei Bai | 날짜: 2025 | DOI: arXiv:2505.17139v3


Essence

Figure 1

Figure 1: 주류 LLM들의 EarthSE에서의 교차 도메인 평가. (a) EarthSE는 지구의 5개 권역에서 다양한 LLM의 능력을 평가 (b) 다중 과제 평가는 계산 및 용어 설명 등에서 뚜렷한 한계 노출

본 논문은 지구과학 분야에 특화된 최초의 포괄적 벤치마크 EarthSE를 제시하며, 10만 건의 학술논문 코퍼스를 기반으로 기초 지식부터 고급 과학탐사 능력까지 평가할 수 있는 다층 평가 프레임워크를 구축했다. 특히 개방형 다중 턴 대화를 통해 LLM의 과학탐사 능력(방법론 귀납, 한계 분석, 개념 제안)을 평가하는 새로운 평가 메트릭을 도입했다.

Motivation

Achievement

Figure 2

Figure 2: EarthSE가 포괄하는 지구과학 114개 학문 분야

Figure 3

Figure 3: EarthSE 구성 프로세스. 10만 건의 논문으로부터 3단계 벤치마크(Earth-Iron, Earth-Silver, Earth-Gold)의 자동화된 구성을 통해 지식 커버리지, 전문 숙련도, 과학탐사 능력의 포괄적 평가 가능

  1. 포괄적 다층 벤치마크 구축:
    • Earth-Iron: 114개 하위 학문, 11개 과제 카테고리에 걸친 4,133개 질문
    • Earth-Silver: 고영향 저널의 고난도 질문
    • Earth-Gold: 개방형 다중 턴 대화 기반 과학탐사 능력 평가
  2. 새로운 평가 메트릭 도입:
    • SES(Scientific Exploration Score) 메트릭으로 방법론 귀납(M_{i+1}), 한계 분석(L_{i+1})을 반복적 자기부정 프로세스 (M_{i+1}, L_{i+1}) = LLM(M_i, L_i)로 평가
  3. 주류 11개 LLM의 한계 노출: 복잡한 지구과학 추론과 개방형 과학탐사에서 현저한 부족함을 실증적으로 규명

How

Figure 4

Figure 4: Phc(고인용도 코어 데이터셋)의 논문 인용도 분포

Originality

Limitation & Further Study

Evaluation

총평: EarthSE는 지구과학 분야에서 기초 지식부터 개방형 과학탐사 능력까지 다층적으로 평가하는 최초의 포괄적 벤치마크로서 상당한 학술적·실무적 가치를 제공한다. 특히 SES 메트릭을 통한 과학적 사고의 정량화는 향후 LLM 과학 응용 평가의 새로운 방향을 제시할 수 있다. 다만 자동화 파이프라인의 기술적 세부사항, 평가 메트릭의 객관성 검증, 모델 성능 저조의 근본 원인 분석 등이 보강되면 더욱 강력한 벤치마크가 될 수 있을 것으로 예상된다.

같이 보면 좋은 논문

다른 접근
특정 과학 분야에서 LLM의 전문 지식 평가라는 공통 목표를 가지지만 평가 범위와 방법론이 다른 접근이다.
다른 접근
둘 다 특정 과학 분야(AI 연구 vs 지구과학)에 대한 언어모델의 깊이 있는 탐구 능력을 평가하는 벤치마크이다.
다른 접근
지구과학 탐구를 위한 벤치마크 접근법으로 Earth-Agent와 상호 보완적인 평가 체계를 제시한다.
후속 연구
지구과학 특화 벤치마크가 다중 모달 LLM의 과학적 추론 능력 평가를 위한 도메인별 확장 사례를 제공한다.
후속 연구
지구과학 특화 벤치마크의 성과가 멀티모달 LLM의 과학적 추론 능력을 다양한 과학 분야로 확장하는 일반적 프레임워크로 발전될 수 있다.
← 목록으로 돌아가기