저자: Kunhao Zheng, Jesse Michael Han, Stanislas Polu | 날짜: 2021 | DOI: N/A
본 논문은 신경 정리 증명(neural theorem proving) 분야를 위한 최초의 통합 크로스 시스템 벤치마크인 miniF2F를 제시한다. 이는 488개의 올림피아드 수준 수학 문제(IMO, AIME, AMC)를 Metamath, Lean, Isabelle, HOL Light 등 다양한 형식 시스템에서 표준화된 형식으로 제공함으로써, 신경 정리 증명 시스템의 수학적 추론 능력을 공정하게 비교할 수 있는 공통 자원을 제공한다.
Figure 1: miniF2F에서 성공적으로 증명된 명제의 개수 비교. 초록색 막대는 Lean GPT-f의 결과
총평: 본 논문은 신경 정리 증명 커뮤니티의 오랫동안의 필요를 충족시키는 첫 번째 통합 벤치마크를 제공함으로써, 시스템 간 공정한 비교와 지속 가능한 연구 생태계 구축에 매우 큰 의의가 있는 작업이다.