저자: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang | 날짜: 2025 | DOI: 10.48550/arXiv.2504.09702
본 논문은 기계학습(ML) 연구 경쟁 문제를 해결하는 언어 에이전트(language agent)의 능력을 평가하기 위한 동적 벤치마크 MLRC-BENCH를 제안한다. 기존 연구와 달리 LLM 판사(LLM-as-a-judge)에 의존하지 않고 객관적 메트릭을 통해 새로운 방법론의 제안과 구현을 엄밀하게 평가한다.
MLRC-BENCH는 ML 학회 경쟁을 에이전트-무관(agent-agnostic) 프레임워크로 표준화하며, 계산 제약 하에서 저장소 수준 코드 실행과 객관적 메트릭 기반 평가를 제공한다.
methods/ 디렉토리만 수정 가능 (알고리즘 로직)총평: 본 논문은 ML 연구 에이전트의 진정한 혁신 능력을 평가하기 위한 객관적이고 동적인 벤치마크를 제시하며, 기존 주관적 평가 방식의 문제점을 실증적으로 규명함으로써 이 분야에 의미 있는 기여를 한다. 다만 작업 수 확대와 다양한 모델군 포함으로 벤치마크 완성도를 높일 필요가 있다.