Essence
그림 2: 아이디어 생성(Stage 1), 실험 구현(Stage 2), 실행(Stage 3)의 세 단계로 구성된 MLR-COPILOT 프레임워크
본 논문은 대규모 언어모델(LLM) 에이전트 기반의 자동화된 머신러닝 연구 프레임워크인 MLR-COPILOT을 제시한다. 이 시스템은 연구 논문을 입력받아 자동으로 연구 아이디어를 생성하고, 이를 실제 코드로 구현·실행하여 검증된 연구 결과를 도출한다.
How
그림 2: 세 단계 프레임워크의 상세 구조와 각 에이전트의 역할
Stage 1: 연구 아이디어 생성 (IdeaAgent)
- 입력 논문 c에서 Semantic Scholar API를 통해 제목, 초록, 서론, 관련 연구를 추출
- 자연어 처리로 연구 과제(t), 연구 갭(g), 핵심 키워드(k) 추출
- 추출된 정보 P로 최근 관련 연구 R 검색
- 프롬프트 P1 = {P, R} → h: 식별된 트렌드와 갭을 기반으로 새로운 방법론(h) 생성
- 프롬프트 P2 = {P1, h} → e: 방법론에 기반한 상세 실험 계획(e) 수립
- 최종 연구 아이디어: RI = {P, R, h, e}
Stage 2: 실험 구현 (ExperimentAgent)
- 원본 논문에서 프로토타입 구현 코드(I) 검색 및 추출
- 실험 계획의 요구사항에 맞는 모델 M ∈ {M1, ..., Mp} (HuggingFace 저장소)와 데이터셋 D ∈ {D1, ..., Dq} 선택적 검색
- 선택된 모델과 데이터셋과의 호환성을 위해 코드 수정
- 검색된 컴포넌트 통합: (I, M, D) → S (실험 설정)
Stage 3: 구현 실행 및 피드백
- ExperimentAgent가 실험 설정 S 실행
- 계산 자원 할당 및 진행 상황 모니터링
- 실행 결과 분석 및 디버깅 피드백 생성
- 인간 피드백(선택적) 통합으로 방법론 및 설계 개선
- Stage 2와 Stage 1로 반복적 개선
핵심 기술
- RL 기반 미세조정: Supervised Fine-Tuning(1,000개 논문 기반)으로 초기 학습 후, novelty/feasibility/effectiveness 보상 모델을 활용한 강화학습으로 최적화
- 정보 검색: Semantic Scholar API 활용 및 HuggingFace 모델/데이터 저장소 연동
- 프롬프트 엔지니어링: 구조화된 프롬프트를 통해 일관성 있고 작업 지향적 출력 보장
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
총평: MLR-COPILOT은 머신러닝 연구의 전체 자동화 파이프라인을 구현한 선도적 작업으로, RL 기반 IdeaAgent와 반복적 피드백 메커니즘을 통해 기존 연구의 한계를 실질적으로 극복하였다. 다만 평가 규모의 제한성과 실제 연구 임팩트에 대한 심화된 검증이 필요하다.