Can language models falsify? evaluating algorithmic reasoning with counterexample creation

저자: Shiven Sinha, Shashwat Goel, P. Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu | 날짜: 2025 | DOI: 10.48550/arXiv.2502.19414


Essence

Figure 1

그림 1: 표준 벤치마크는 모델의 해결책 생성 능력을 평가하는 반면, 본 논문은 부정확한 해결책을 반박(falsify)하는 역 벤치마크를 제안한다.

언어 모델(LM)이 프로그래밍 문제의 부정확한 해결책에 대한 반례(counterexample)를 생성할 수 있는가라는 질문에 답하는 논문으로, REFUTE 벤치마크를 통해 최신 LM들이 반례 생성 능력에서 심각한 한계를 보임을 실증적으로 입증한다.

Motivation

Achievement

Figure 2

그림 2: 데이터 수집 파이프라인. 647개 문제에서 필터링을 통해 최종 324개 샘플로 구성된 REFUTE 벤치마크 생성.

  1. 성능 격차의 실증적 입증:
    • 50% 해결 능력을 보이는 o3-mini가 반례 생성에서는 <9% 성공률만 기록
    • DeepSeek R1도 유사한 성능 (약 8-9%)
    • Few-shot prompting, chain-of-thought, code execution feedback을 모두 적용해도 개선 미미
  2. 검증-생성 격차(generator-verifier gap) 규명:
    • 부정확한 해결책 검증이 때로 그 문제를 올바르게 푸는 것보다 더 어려움을 증명
    • 자동 테스트 케이스 생성만으로는 불충분 (반례는 조합론적으로 큰 입력 공간의 비자명한 영역에 위치)
    • 모델이 오류 탐지 능력이 부족하면 자동 수정도 불가능함을 시사
  3. 동적 업데이트 벤치마크 제공:
    • Codeforces의 최신 문제(2024-2025)로 훈련 데이터 오염 방지
    • LiveCodeBench 방식 따르며 정기적 업데이트로 장기적 평가 체계 구축

How

Figure 3

그림 3: 부정확한 해결책이 통과하는 테스트 케이스 분포. 중앙값이 65-85% 통과로, 단순 무작위 탐색으로는 반례 발견 불가능함을 보여줌.

데이터 수집 및 필터링:

반례 검증 메커니즘:

평가 설정:

필터링 엄격성:

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

총평: 언어 모델의 "반박(falsification)" 능력이라는 과학적으로 중요하면서도 벤치마크되지 않은 영역을 처음 정식화하고, 자동 검증 가능한 알고리즘 도메인에서 체계적으로 평가한 점에서 선도적 공헌이다. 다만 도메인의 제약성, 개선 방법의 부재, 일반화 가능성 미검증이 아쉬우므로, 후속 연구에서 다양한 도메인으로의 확대와 모델 개선 전략 연구가 필수적이다.

같이 보면 좋은 논문

기반 연구
LM의 반례 생성 능력 부족이 AI Scientist의 과학적 검증 능력 한계를 뒷받침하는 근거가 됩니다.
다른 접근
언어 모델의 알고리즘적 추론 평가와 시각 언어 모델의 환각 보정이라는 서로 다른 신뢰성 향상 접근법을 제공한다.
후속 연구
도구 기반 자기 교정 능력과 반례 생성 능력 간의 상관관계를 분석할 수 있습니다.
응용 사례
반례 생성 평가가 AI 안전성을 위한 기계론적 해석가능성 연구에서 중요한 검증 도구로 활용됩니다.
응용 사례
기계론적 해석가능성이 LM의 반례 생성 실패 원인을 신경망 내부 메커니즘으로 분석하는데 활용됩니다.
← 목록으로 돌아가기