MLE-bench: Evaluating machine learning agents on machine learning engineering

저자: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry | 날짜: 2024 | 출판: ICLR 2025


Essence

Figure 1

MLE-bench: AI 에이전트를 위한 오프라인 Kaggle 경쟁 환경. 각 경쟁은 설명, 데이터셋, 등급 코드 및 리더보드로 구성됨

본 논문은 AI 에이전트의 머신러닝 엔지니어링(MLE) 능력을 평가하기 위해 Kaggle의 75개 경쟁 문제로 구성된 벤치마크 MLE-bench를 소개한다. 최고 성능 모델(o1-preview with AIDE 스캐폴딩)이 16.9%의 경쟁에서 Kaggle 동메달 이상 수준을 달성했으며, 자원 스케일링과 사전학습 데이터 오염의 영향을 광범위하게 분석했다.

Motivation

Achievement

Figure 2

3개의 상이한 에이전트 프레임워크(MLAB, OpenHands, AIDE)에서 실제 경쟁 시도의 궤적. 실제 R&D와 같이 시행착오를 통한 반복적 해결 필요

  1. 종합적 벤치마크 구축: 5,673개 Kaggle 경쟁에서 기준에 맞게 75개 경쟁을 선별(저 복잡도 30%, 중 복잡도 50%, 고 복잡도 20%)하고, 각 경쟁에 대해 설명, 데이터셋, 등급 코드, 리더보드 스냅샷 제공
  2. 에이전트 성능 평가 결과:
    • o1-preview + AIDE: pass@1에서 16.9% 동메달 달성률
    • pass@8 시도 시 34.1%로 성능 2배 향상
    • GPT-4o: 24시간에 8.7%, 100시간에 11.8%
    • 에이전트는 표준 접근법으로 해결 가능한 경쟁에서는 우수하나, 디버깅과 오류 복구에 어려움
  3. 자원 스케일링 분석: 런타임, 하드웨어 자원, pass@k 시도 횟수 증가에 따른 성능 천장 분석으로 현재 에이전트의 한계 명확화
  4. 데이터 오염 및 부정행위 탐지: 사전학습 데이터 오염과 성능 간의 관계 분석 및 표절 탐지(Dolos), 규칙 위반 탐지(GPT-4o 기반) 도구 제공

How

Figure 3

허용된 시도 횟수 증가에 따른 메달 달성 비율 상승. Pass@1에서 Pass@8 또는 Pass@24로 증가 시 성능 개선 명확

데이터셋 구성

Train-Test 분할

평가 지표

규칙 및 부정행위 방지

에이전트 평가 설정

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 실제 Kaggle 경쟁 75개를 정교하게 선별하여 AI 에이전트의 현실적 ML 엔지니어링 능력을 평가하는 첫 종합 벤치마크를 제시했으며, 광범위한 실험과 부정행위 방지 메커니즘으로 벤치마크의 신뢰성과 재현성을 확보했다. 다만 현재 에이전트와 최고 수준 Kaggler 간의 큰 성능 격차, 그리고 디버깅과 오류 복구 능력의 한계는 자율적 ML 엔지니어링의 실현화를

같이 보면 좋은 논문

기반 연구
기계학습 에이전트 평가의 기본 원리를 데이터 사이언스 특화 작업에 적용할 수 있는 이론적 토대를 제공합니다.
다른 접근
머신러닝 에이전트의 실제 성능을 평가하는 또 다른 벤치마크로 상호 보완적 관점을 제공한다
다른 접근
AI 연구 에이전트 평가에서 실제 연구 과정과 엔지니어링 능력이라는 서로 다른 평가 관점을 제공한다
후속 연구
머신러닝 에이전트 평가를 기존 13개 작업에서 더 포괄적이고 현실적인 벤치마크로 확장한다.
후속 연구
AI 연구 에이전트의 평가 프레임워크 발전에서 실무적 MLE 능력과 연구 능력의 연계점을 보여준다
응용 사례
MLE-bench에서 평가된 자동화 역량이 실제 데이터 과학 에이전트로 구현된 사례를 확인할 수 있다
응용 사례
MLE-bench에서 평가된 머신러닝 자동화 역량이 실제 데이터 과학 에이전트로 구현된 구체적 사례이다
← 목록으로 돌아가기