Deepseek-prover: Advancing theorem proving in llms through large-scale synthetic data

저자: Huajian Xin, Daya Guo, Zhihong Shao, Z. Ren, Qihao Zhu, Bo Liu, Chong Ruan, Wenda Li, Xiaodan Liang | 날짜: 2024 | DOI: 미공개


Essence

Figure 1

그림 1: 접근 방법의 개요. 비형식 수학 문제에서 형식적 증명 데이터를 생성하는 반복적 파이프라인

이 논문은 비형식적 수학 문제에서 자동으로 대규모 형식 증명 데이터(Lean 4)를 합성하는 방법을 제시하고, 이를 통해 미세조정된 LLM이 GPT-4를 능가하는 정리 증명 성능을 달성했다. 특히 800만 개의 정형화된 명제-증명 쌍을 생성하여 훈련 데이터 부족 문제를 해결했다.

Motivation

Achievement

  1. 데이터셋 규모: 869,659개의 비형식 수학 문제에서 800만 개의 고품질 형식 명제-증명 쌍 생성 (기존 자동형식화 연구의 수십~수백배 규모)
  2. 벤치마크 성능:
    • miniF2F-test: 64 샘플 기준 46.3% 전체 증명 정확도 (GPT-4: 23.0%, RL 방법: 41.0%)
    • miniF2F 누적: 52% 정확도
    • FIMO 벤치마크: 100 샘플로 4/148, 4096 샘플로 5/148 증명 성공 (GPT-4: 0/148)
  3. 반복 학습의 유효성: 애블레이션 실험으로 각 반복마다 miniF2F 해결 문제 수가 점진적으로 증가함을 입증

How

![Figure 1 참조]

4단계 반복 파이프라인:

  1. 자동형식화 (Autoformalization)
    • DeepSeekMath-Base 7B를 MMA 데이터셋(Lean 4 mathlib 기반)으로 미세조정
    • 구조화된 프롬프트를 통해 비형식 문제를 Lean 4 형식 명제로 변환
    • 웹 스크래핑으로 수집한 869,659개 고등학교~학부 수준 경시 문제 활용
  2. 품질 보증 (Quality Assurance)
    • 모델 스코링: 단순 명제 필터링으로 증명 난이도 높은 문제 선별
    • 가설 거부 전략 (Hypothesis Rejection): 비형식적으로 부정확한 명제 제거
    • 형식 검증자로 생성된 명제 유효성 검사
  3. 증명 생성 및 검증 (Statements Proving)
    • DS-Prover가 형식 명제의 증명 코드 생성
    • Lean 4 형식 검증자로 증명 정확성 자동 확인
    • 병렬 증명 최적화: 원래 명제와 부정 명제를 동시에 증명하여 탐색 공간 축소 (unprovable 명제는 부정 증명으로 빠르게 배제)
  4. 반복 훈련 (Iterative Fine-tuning)
    • 검증된 명제-증명 쌍으로 DS-Prover 재훈련
    • 모델 성능 향상 → 더 나은 형식화 및 증명 생성 → 고품질 데이터 증가
    • 성능 개선이 수렴할 때까지 반복

Originality

Limitation & Further Study

한계점:

후속 연구 방향:

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

총평: 이 논문은 정형식 증명의 오래된 데이터 부족 문제를 대규모 자동 합성과 반복 검증을 통해 실용적으로 해결한 견고한 연구로, 특히 800만 규모 오픈소스 데이터셋의 공개는 자동정리증명 분야에 상당한 인프라 기여를 할 것으로 예상된다. 다만 정리 증명의 절대 성능은 여전히 제한적이며, 고급 수학으로의 확장 가능성 검증이 필요하다.

같이 보면 좋은 논문

기반 연구
초기 신경 정리 증명 연구에서 대규모 합성 데이터를 통한 성능 향상까지의 발전 과정을 보여준다
다른 접근
형식 증명 생성에서 비형식 증명 활용과 대규모 합성 데이터 생성의 서로 다른 접근법을 비교할 수 있다
다른 접근
자동형식화와 대규모 합성 데이터 생성이라는 서로 다른 정리 증명 자동화 접근법을 비교할 수 있다
후속 연구
초기 신경 정리 증명에서 대규모 데이터 합성을 통한 성능 향상까지의 발전 과정을 보여준다
후속 연구
miniF2F 벤치마크를 활용하여 대규모 합성 데이터로 정리 증명 성능을 향상시킨 후속 연구이다
후속 연구
형식적 수학 증명에서 IMO 수준 문제를 LLM 기반 증명 시스템으로 발전시킨 실용적 응용
후속 연구
성장 가능한 라이브러리에서 LLM 기반 고급 정리 증명으로 확장된 연구
후속 연구
대규모 데이터 합성에서 강화학습 기반 사고-증명 교차 방법론으로의 추가 발전을 보여준다
후속 연구
DeepSeek-Prover의 LLM 기반 정리 증명이 고차 논리 시스템의 현대적 구현을 제시한다
응용 사례
miniF2F 벤치마크에서 정의된 문제들을 대규모 합성 데이터로 해결하는 구체적 방법론이다
← 목록으로 돌아가기