LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

저자: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy | 날짜: 2025 | DOI: arXiv:2504.10415v2


Essence

Figure 1

Figure 1. Feynman 문제와 LLM-SRBench 데이터셋(LSR-Transform, LSR-Synth)에서 단순 LLM 샘플링(Llama-3.1-8B)의 오차 분석. Feynman 문제에서 수치 오차 곡선의 급격한 하강과 낮은 기호 오차는 실제 발견보다 암기를 시사함.

본 논문은 대규모 언어 모델(LLM) 기반 과학 방정식 발견의 진정한 능력을 평가하기 위해 암기를 방지하는 종합적 벤치마크 LLM-SRBench를 제안한다. 4개 과학 분야에서 239개 도전 문제로 구성되어 있으며, 최고 성능 모델도 31.5% 기호 정확도에 불과함을 보여준다.

Motivation

Achievement

Figure 2

Figure 2. LLM 기반 과학 방정식 발견의 개요. 벤치마크 과제(좌)에서 과학 맥락과 수치 데이터를 결합하고, 발견 프로세스(중앙)에서 LLM의 과학 지식과 데이터 기반 추론을 활용하여 반복적으로 가설 생성, 평가(우)에서 데이터 신실성, 기호 정확도, 계산 효율성으로 측정.

  1. 종합 벤치마크 구축: 4개 과학 분야(화학 36, 생물학 24, 물리학 43, 재료과학 25)에서 239개 문제(LSR-Transform 111개, LSR-Synth 128개)로 구성된 첫 번째 대규모 LLM 기반 방정식 발견 벤치마크 제시.
  2. 성능 상한선 규정: 최고 성능 모델(GPT-4o 등)이 LSR-Transform에서 31.5%, LSR-Synth에서 28.1%의 기호 정확도로 현저히 낮은 성능을 달성, 벤치마크의 도전 난이도와 미래 연구 가치 입증.
  3. 암기 방지 메커니즘: Feynman 방정식을 비표준 수학 형태로 변환하고 합성 항을 도입하여 LLM의 단순 암송이 아닌 실제 데이터 기반 추론 능력 평가 가능.

How

Figure 3

Figure 3. LLM-SRBench의 두 데이터셋 카테고리에 대한 생성 파이프라인. (a) LSR-Transform은 Feynman 문제를 다른 수학 표현으로 변환.

LSR-Transform (변환 기반 문제)

LSR-Synth (합성 신규 문제)

평가 메트릭

Originality

Limitation & Further Study

Evaluation

총평: LLM-SRBench는 과학 방정식 발견 분야에서 실질적 필요에 응하는 도전적이고 엄격한 벤치마크를 제공하며, 암기 방지 설계와 다중 도메인 커버리지가 장점이나, 합성 문제 생성의 자동화 및 기존 SR 방법과의 비교 확대가 후속 개선 과제이다.

같이 보면 좋은 논문

기반 연구
LLM을 통한 과학 방정식 발견 프레임워크가 암기 방지 벤치마크의 이론적 기반을 제공합니다.
기반 연구
대칭성 기반 방정식 발견 방법론이 LLM 기반 방정식 발견 벤치마크의 평가 기준을 제공합니다.
다른 접근
LLM 기반 방정식 발견과 데이터-경험 이중 추론이라는 서로 다른 접근으로 과학 방정식 탐구 문제를 해결합니다.
다른 접근
LLM 기반 이중 추론과 LLM 과학 방정식 발견 벤치마크가 기호 회귀에서 서로 다른 평가 및 개선 접근법을 제시한다.
다른 접근
과학 방정식 발견을 위한 LLM 벤치마크와 동역학 시스템 발견이 서로 다른 방정식 탐색 접근법을 제시한다.
후속 연구
과학 방정식 발견 벤치마크가 대칭 불변량을 통한 방정식 발견의 성능 평가 기준을 제공합니다.
← 목록으로 돌아가기