저자: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy | 날짜: 2025 | DOI: arXiv:2504.10415v2
Figure 1. Feynman 문제와 LLM-SRBench 데이터셋(LSR-Transform, LSR-Synth)에서 단순 LLM 샘플링(Llama-3.1-8B)의 오차 분석. Feynman 문제에서 수치 오차 곡선의 급격한 하강과 낮은 기호 오차는 실제 발견보다 암기를 시사함.
본 논문은 대규모 언어 모델(LLM) 기반 과학 방정식 발견의 진정한 능력을 평가하기 위해 암기를 방지하는 종합적 벤치마크 LLM-SRBench를 제안한다. 4개 과학 분야에서 239개 도전 문제로 구성되어 있으며, 최고 성능 모델도 31.5% 기호 정확도에 불과함을 보여준다.
Figure 2. LLM 기반 과학 방정식 발견의 개요. 벤치마크 과제(좌)에서 과학 맥락과 수치 데이터를 결합하고, 발견 프로세스(중앙)에서 LLM의 과학 지식과 데이터 기반 추론을 활용하여 반복적으로 가설 생성, 평가(우)에서 데이터 신실성, 기호 정확도, 계산 효율성으로 측정.
Figure 3. LLM-SRBench의 두 데이터셋 카테고리에 대한 생성 파이프라인. (a) LSR-Transform은 Feynman 문제를 다른 수학 표현으로 변환.
총평: LLM-SRBench는 과학 방정식 발견 분야에서 실질적 필요에 응하는 도전적이고 엄격한 벤치마크를 제공하며, 암기 방지 설계와 다중 도메인 커버리지가 장점이나, 합성 문제 생성의 자동화 및 기존 SR 방법과의 비교 확대가 후속 개선 과제이다.