Towards Autonomous Mathematics Research

저자: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Demis Hassabis, Quoc V. Le, Thang Luong | 날짜: 2026-02-10 | DOI: arXiv:2602.10177


Essence

이 논문은 LLM 기반의 자율적 수학 연구 에이전트인 Aletheia를 소개하며, AI가 IMO 수준의 문제 해결을 넘어 전문 연구 수준의 새로운 수학적 정리를 독립적으로 발견하고 증명할 수 있음을 시연한다.

Motivation

Achievement

Figure 1

Figure 1: Aletheia의 시각적 개요 - Generator, Verifier, Reviser의 반복적 상호작용

Figure 2

Figure 2: 2026년 1월 advanced 버전의 Deep Think는 (a) IMO 수준과 (b) 박사 수준 문제에서 우수한 스케일링 법칙을 보임

  1. 완전 자율적 연구 논문: 인간 개입 없이 산술 기하학의 고유가중(eigenweights) 계산에 대한 출판 가능한 논문(Feng26) 생성
  2. Erdős 문제 해결: Bloom's Erdős Conjectures 데이터베이스의 700개 미해결 문제 중 4개의 Erdős 문제를 자율적으로 해결(예: Erdős-1051), 세 수십 년간 미해결이었던 문제들을 포함
  3. 하이브리드 협력: 인간 수학자와의 협력을 통해 다중 논문에 기여(LeeSeo26, FYZ26, ACGKMP26), 이전 증명을 개선하는 중간 명제(intermediate propositions) 도출
  4. FirstProof 벤치마크: 수학자들이 제안한 10개의 연구 수준 문제 집합에서 최고 성능 달성

How

Figure 1

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 경쟁 수학 해결에서 자율적 연구 발견으로의 의미 있는 전환을 보여주며, 특히 투명한 평가 기준 제시라는 메타적 기여가 중요하다. 다만 해결된 문제들의 수학적 중요도가 제한적이고 환각 문제의 근본적 해결이 미흡하여, 진정한 "연구 자율성"의 주장이 부분적으로 경계되어야 한다.

← 목록으로 돌아가기