저자: Simon Frieder, Jonas Bayer, Sam Looi, Jacob Loader, Julius Berner, Katherine M. Collins 외 | 날짜: 2024 | DOI: arXiv:2412.15184
현재 수학 AI 모델(특히 대형 언어 모델)을 훈련하고 평가하는 데 사용되는 데이터셋과 벤치마크는 수학 정리의 최종 증명만을 다루며, 증명의 동기, 발견 과정, 수학자의 사고 과정 등 더 풍부한 측면을 담지 못하고 있다. 본 논문은 수학적 코파일럿(mathematical copilots)의 능력 향상을 위해 데이터셋 설계와 평가 기준의 근본적인 개선이 필요함을 주장한다.
총평: 수학 AI 분야의 데이터 기반 발전에 대한 중요한 성찰을 제공하며, Pólya의 "motivated proof"를 통해 실질적 개선 방향을 제시한 점이 우수하나, 구체적 구현 및 실증 검증 부족이 한계이다. 학계와 산업계 모두에 영향력 높은 문제 제기 논문이다.