ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code

저자: Tianyu Hua, Harper Hua, Violet Xiang, Benjamin Klieger, Sang T. Truong, Weixin Liang, Fan-Yun Sun, Nick Haber (Stanford University) | 날짜: 2025 | DOI: arXiv:2506.02314v1


Essence

Figure 1

ResearchCodeBench 작업 설정 개요. LLM은 연구 논문, TODO 마커가 포함된 목표 코드 스니펫, 동일 프로젝트의 주변 컨텍스트 코드에 접근하여 누락된 코드를 작성한다.

최신 기계학습 연구 논문에서 제시된 새로운 아이디어를 실행 가능한 코드로 변환하는 LLM의 능력을 평가하는 벤치마크로, 2024-2025년 상위 학회(NeurIPS, ICLR, CVPR) 논문 20개로부터 구성된 212개의 코딩 챌린지를 통해 현재 최고 성능 LLM도 40% 미만의 성공률을 보임을 입증한다.

Motivation

Achievement

Figure 2

32개 LLM의 ResearchCodeBench에서의 Scaled Pass@1 결과 (탐욕적 디코딩)

  1. 포괄적 벤치마크 구성: 20개의 최신 ML 논문(생성 모델, 컴퓨터 비전, 이론, 강화학습 등 다양한 분야)으로부터 212개의 코딩 챌린지 구성, 논문 저자 및 도메인 전문가와의 협력으로 신뢰성 확보
  2. LLM 성능 평가 결과: 32개 이상의 상용 및 오픈소스 LLM 평가 수행
    • Gemini-2.5-Pro-Preview: 37.3% (최고 성능)
    • O3 (High): 32.3%
    • O4-mini (High): 30.8%
    • 최고 성능 모델도 40% 미만의 성공률로 신규 연구 코드 구현의 난이도 입증
  3. 신뢰성 높은 평가 방법론: 단순한 문자열 거리나 LLM 판정자 대신, 실행 기반의 하이브리드 평가 전략으로 기능적 정확성 검증

How

Figure 4

논문 접근성에 따른 LLM 성능 차이. 논문 접근 시 더 높은 성능을 보임

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5

총평: ResearchCodeBench는 LLM의 진정한 혁신 코드 구현 능력을 평가하는 시간-민감하고 객관적인 벤치마크를 제시함으로써, AI 보조 과학 연구의 현실적 한계를 규명하고 향후 LLM 개선 방향의 기준점을 제공하는 가치 있는 기여이다.

같이 보면 좋은 논문

응용 사례
새로운 ML 방법론 구현을 벤치마킹하여 연구-코드 변환 시스템의 실제 성능을 평가합니다.
← 목록으로 돌아가기