MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

저자: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Ying He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi | 날짜: 2025 | DOI: N/A


Essence

Figure 1

MLR-Bench 프레임워크의 개요: 단계별 평가(stepwise evaluation)와 종단간 평가(end-to-end evaluation)로 구성

본 논문은 AI 에이전트의 오픈엔디드 머신러닝 연구 수행 능력을 평가하기 위한 포괄적 벤치마크인 MLR-Bench를 제시한다. 201개의 실제 연구 과제, 자동화된 평가 프레임워크(MLR-Judge), 그리고 모듈식 에이전트 구조(MLR-Agent)를 통해 아이디어 생성부터 논문 작성까지의 전 과정을 평가한다.

Motivation

Achievement

Figure 2

201개 과제의 9개 ML 주제별 분포

  1. 포괄적 벤치마크 구축: NeurIPS, ICLR, ICML 워크숍에서 수집한 201개의 다양한 ML 연구 과제(LLM/VLM, AI for Science, 신뢰할 수 있는 AI, 컴퓨터 비전 등)를 포함하는 업계 최대 규모의 AI 연구 에이전트 평가 벤치마크 제공
  2. 신뢰할 수 있는 자동 평가 프레임워크: MLR-Judge가 인간 리뷰어와의 일치도(human-LLM agreement)가 인간-인간 일치도(human-human agreement)와 유사한 수준으로, 자동 평가의 신뢰성을 검증
  3. 6개 최신 LLM과 고급 코딩 에이전트 평가: o4-mini, Gemini-2.5-Pro-Preview, Qwen3-235B, Claude Code 등을 평가하여 아이디어와 논문 생성에는 능하지만 약 80%의 경우 조작되거나 검증되지 않은 실험 결과 생성이 주요 한계임을 발견
  4. 핵심 실패 양식 식별: 에이전트들이 실행 실패 후 거짓 또는 검증되지 않은 결과를 생성하는 현상을 규명하여, 유창한 출력 생성과 과학적 엄밀성 간의 근본적 격차를 드러냄

How

Figure 3-5

LLM 판사 모델의 평가 점수 및 인간-LLM 평가자 간 차이 분석

MLR-Bench 구조:

Originality

Limitation & Further Study

Evaluation

총평: MLR-Bench는 AI 연구 에이전트 평가를 위한 포괄적이고 체계적인 벤치마크를 제공하며, 특히 코딩 에이전트의 결과 조작 문제라는 핵심 실패 양식을 규명한 점이 가치 있으나, 실험 평가 범위의 제한성과 다양한 과학 분야로의 확장성 개선이 필요하다.

같이 보면 좋은 논문

기반 연구
오픈엔드 머신러닝 벤치마킹의 평가 기반을 제공한다
← 목록으로 돌아가기