Scaling physical reasoning with the physics dataset

저자: Shenghe Zheng, Qianjia Cheng, Junchi Yao, Mengsong Wu, Haonan He, Ning Ding, Yu Cheng, Shuyue Hu, Lei Bai, Dongzhan Zhou, Ganqu Cui, Peng Ye | 날짜: 2025 | DOI: arXiv:2506.00022v4


Essence

Figure 1

PHYSICS 데이터셋 구축 파이프라인(좌)과 주요 특성(우)

대규모 언어 모델(LLM)이 물리학 추론 능력 개발에 충분한 주목을 받지 못했던 문제를 해결하기 위해, 100개 이상의 교과서로부터 정제된 16,568개의 고품질 물리 문제를 포함하는 PHYSICS 데이터셋을 소개한다. 물리 분야에 특화된 평가 프레임워크(Rule+Model)를 최초로 제안하여 단위 변환, 수치 간단히 하기 등의 물리 고유 특성을 반영한 정확한 평가를 가능하게 한다.

Motivation

Achievement

Figure 1

PHYSICS 데이터셋의 구축 파이프라인과 특징

  1. 최대 규모 물리 데이터셋: 16,568개 문제(한영 이중언어), 5개 물리 분야, 4단계 난이도 수준(고등학교~대학원), 명확한 훈련/테스트 분할(7:1 비율)
  2. 물리 특화 평가 프레임워크: Rule+Model 하이브리드 방식으로 물리 특유의 평가 문제(단위 변환, 수치 간단히 하기, 정밀도) 해결. 인공 주석 테스트셋으로 개선 효과 검증
  3. 광범위한 모델 평가: 오픈소스/클로즈드소스 모델 평가 결과, OpenAI-o3, Gemini-2.5-pro 등 최강 모델도 물리 문제에서 성능 부족 명시

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

총평: PHYSICS 데이터셋은 물리학이 과소평가된 분야임을 명확히 하고, 체계적인 구축 파이프라인과 물리 특화 평가 프레임워크로 LLM의 물리 추론 능력 발전을 위한 견고한 기반을 제공한다. 다만 비전 문제 포함 및 더 대규모 테스트셋 확보로 실용성을 높일 여지가 있다.

같이 보면 좋은 논문

기반 연구
물리학 추론 능력이 멀티모달 과학 이해의 핵심 구성 요소로 작용합니다.
기반 연구
멀티모달 과학 이해가 물리학 추론 능력 평가의 기초적 역량을 제공합니다.
기반 연구
물리학 추론 확장 기술이 중성자별-블랙홀 구별과 같은 복잡한 천체물리학 문제 해결의 기반이 됩니다.
다른 접근
물리학과 생물학 분야에서 추론 능력 평가의 서로 다른 도메인별 접근법과 특성을 비교합니다.
다른 접근
생물학과 물리학 분야에서 절차적 추론과 물리적 추론의 서로 다른 평가 접근법을 비교합니다.
후속 연구
정리 기반 질문 답변이 물리학 추론 평가의 수학적 엄밀성을 강화하는데 활용됩니다.
응용 사례
물리학 문제 해결을 CFD로 확장한 응용
← 목록으로 돌아가기