저자: Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry | 날짜: 2024 | 출판: ICLR 2025
MLE-bench: AI 에이전트를 위한 오프라인 Kaggle 경쟁 환경. 각 경쟁은 설명, 데이터셋, 등급 코드 및 리더보드로 구성됨
본 논문은 AI 에이전트의 머신러닝 엔지니어링(MLE) 능력을 평가하기 위해 Kaggle의 75개 경쟁 문제로 구성된 벤치마크 MLE-bench를 소개한다. 최고 성능 모델(o1-preview with AIDE 스캐폴딩)이 16.9%의 경쟁에서 Kaggle 동메달 이상 수준을 달성했으며, 자원 스케일링과 사전학습 데이터 오염의 영향을 광범위하게 분석했다.
3개의 상이한 에이전트 프레임워크(MLAB, OpenHands, AIDE)에서 실제 경쟁 시도의 궤적. 실제 R&D와 같이 시행착오를 통한 반복적 해결 필요
허용된 시도 횟수 증가에 따른 메달 달성 비율 상승. Pass@1에서 Pass@8 또는 Pass@24로 증가 시 성능 개선 명확
총평: 본 논문은 실제 Kaggle 경쟁 75개를 정교하게 선별하여 AI 에이전트의 현실적 ML 엔지니어링 능력을 평가하는 첫 종합 벤치마크를 제시했으며, 광범위한 실험과 부정행위 방지 메커니즘으로 벤치마크의 신뢰성과 재현성을 확보했다. 다만 현재 에이전트와 최고 수준 Kaggler 간의 큰 성능 격차, 그리고 디버깅과 오류 복구 능력의 한계는 자율적 ML 엔지니어링의 실현화를