저자: Shenghe Zheng, Qianjia Cheng, Junchi Yao, Mengsong Wu, Haonan He, Ning Ding, Yu Cheng, Shuyue Hu, Lei Bai, Dongzhan Zhou, Ganqu Cui, Peng Ye | 날짜: 2025 | DOI: arXiv:2506.00022v4
PHYSICS 데이터셋 구축 파이프라인(좌)과 주요 특성(우)
대규모 언어 모델(LLM)이 물리학 추론 능력 개발에 충분한 주목을 받지 못했던 문제를 해결하기 위해, 100개 이상의 교과서로부터 정제된 16,568개의 고품질 물리 문제를 포함하는 PHYSICS 데이터셋을 소개한다. 물리 분야에 특화된 평가 프레임워크(Rule+Model)를 최초로 제안하여 단위 변환, 수치 간단히 하기 등의 물리 고유 특성을 반영한 정확한 평가를 가능하게 한다.
PHYSICS 데이터셋의 구축 파이프라인과 특징
총평: PHYSICS 데이터셋은 물리학이 과소평가된 분야임을 명확히 하고, 체계적인 구축 파이프라인과 물리 특화 평가 프레임워크로 LLM의 물리 추론 능력 발전을 위한 견고한 기반을 제공한다. 다만 비전 문제 포함 및 더 대규모 테스트셋 확보로 실용성을 높일 여지가 있다.