저자: Shiven Sinha, Shashwat Goel, P. Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu | 날짜: 2025 | DOI: 10.48550/arXiv.2502.19414
그림 1: 표준 벤치마크는 모델의 해결책 생성 능력을 평가하는 반면, 본 논문은 부정확한 해결책을 반박(falsify)하는 역 벤치마크를 제안한다.
언어 모델(LM)이 프로그래밍 문제의 부정확한 해결책에 대한 반례(counterexample)를 생성할 수 있는가라는 질문에 답하는 논문으로, REFUTE 벤치마크를 통해 최신 LM들이 반례 생성 능력에서 심각한 한계를 보임을 실증적으로 입증한다.
그림 2: 데이터 수집 파이프라인. 647개 문제에서 필터링을 통해 최종 324개 샘플로 구성된 REFUTE 벤치마크 생성.
그림 3: 부정확한 해결책이 통과하는 테스트 케이스 분포. 중앙값이 65-85% 통과로, 단순 무작위 탐색으로는 반례 발견 불가능함을 보여줌.
데이터 수집 및 필터링:
반례 검증 메커니즘:
평가 설정:
필터링 엄격성:
총평: 언어 모델의 "반박(falsification)" 능력이라는 과학적으로 중요하면서도 벤치마크되지 않은 영역을 처음 정식화하고, 자동 검증 가능한 알고리즘 도메인에서 체계적으로 평가한 점에서 선도적 공헌이다. 다만 도메인의 제약성, 개선 방법의 부재, 일반화 가능성 미검증이 아쉬우므로, 후속 연구에서 다양한 도메인으로의 확대와 모델 개선 전략 연구가 필수적이다.