ResearchGym: Evaluating Language Model Agents on Real-World AI Research

저자: Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan | 날짜: 2026-02-16 | DOI: N/A


Essence

Figure 1

그림 1: ResearchGym은 아이디어 제시와 실험 수행을 결합하여 LLM 에이전트를 객관적 점수로 평가

본 논문은 실제 AI 연구 논문의 저장소를 기반으로 엔드-투-엔드 연구 루프를 평가하는 벤치마크 ResearchGym을 제시한다. GPT-5 기반 에이전트가 인상적인 성능을 보이기도 하지만 신뢰성이 매우 낮다는 "능력-신뢰성 격차(capability-reliability gap)"를 실증적으로 입증한다.

Motivation

Achievement

Figure 2

그림 2: 1,387개 논문에서 자동 필터링과 인간 평가를 통해 5개 작업 선정

  1. 포괄적 벤치마크 구성:
    • 5개 작업, 39개 부작업 (지속 학습, 강화학습, 토크나이제이션, 교차모달 검색, 시계열 설명)
    • 객관적 평가 지표(원본 논문의 평가 스크립트 사용)
    • 하한선(베이스라인)과 상한선(저자 솔루션) 제공으로 보정된 비교
  2. GPT-5 에이전트의 신뢰성 격차 실증:
    • 15회 평가(5개 작업 × 3시드) 중 베이스라인 개선: 1회(6.7%)만 성공
    • 평균 부작업 완료율: 26.5%
    • 성능이 ~9시간 후 고착(plateau)
    • 하나의 성공 사례: ICML 2025 스팟라이트 작업에서 인간 솔루션 초과
  3. 다양한 에이전트 아키텍처 평가:
    • Claude Code(Opus-4.5), Codex(GPT-5.2) 모두 유사한 격차 확인
    • 최신 폐쇄 소스 에이전트 프레임워크의 한계 드러냄

How

Figure 3

그림 3: 벤치마크 구성 과정: LLM 기반 정보 추출 → 휴리스틱 필터링 → 인간 QA

태스크 설계:

벤치마크 구성 파이프라인:

오염 인식 설계:

평가 메커니즘:

에이전트 아키텍처:

Originality

Limitation & Further Study

한계:

후속 연구 방향:

Evaluation

총평: 본 논문은 AI 에이전트의 실제 연구 수행 능력 평가를 위한 첫 번째 체계적 벤치마크를 제시함으로써 학계에 중요한 기여를 한다. 특히 객관적 실행 기반 평가, 오염 인식 설계, 접근성 있는 인프라 제공은 우수하나, 제한된 작업 규모와 현상적 실패 분석 수준은 향후 보완이 필요하다. 최신 LLM이 가끔 SOTA 성능에 도달하지만 대체로 신뢰할 수 없다는 발견은 에이전트 개발 커뮤니티에 중대한 경종을 울린다.

같이 보면 좋은 논문

다른 접근
AI 연구 에이전트 평가에서 실제 연구 과정과 엔지니어링 능력이라는 서로 다른 평가 관점을 제공한다
다른 접근
과학적 작업 훈련에서 체육관 프레임워크와 실제 연구 평가의 서로 다른 접근법이다.
후속 연구
AI 연구 에이전트의 평가 프레임워크 발전에서 실무적 MLE 능력과 연구 능력의 연계점을 보여준다
후속 연구
AI의 실험 수행 능력 평가에서 전체적인 연구 과정 평가로 확장된 벤치마크 발전을 보여준다
후속 연구
언어모델 에이전트의 실제 연구 환경 평가가 MLGym의 AI 연구 에이전트 훈련 프레임워크를 실제 적용으로 확장했다.
응용 사례
연구 에이전트 평가 프레임워크가 실제 워크샵 수준 자동 과학 발견으로 구현된 사례이다
← 목록으로 돌아가기