Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

저자: Antoine Grosnit, Alexandre Maraval, Refinath S N, Zichao Zhao, James Doran, Giuseppe Paolo, Albert Thomas, Jonas Gonzalez, Abhineet Kumar, Khyati Khandelwal, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balázs Kégl, Haitham Bou-Ammar, Jun Wang (Huawei Noah's Ark Lab, AI Centre UCL, TU Darmstadt) | 날짜: 2024 | DOI: arXiv:2411.03562


Essence

Figure 1

Kolb의 경험적 학습 이론의 계산적 형식화: 내재적 함수(반성과 추상화)와 외재적 함수(환경과의 상호작용)의 순환 구조

본 논문은 Kolb의 경험적 학습 이론(Experiential Learning Theory)과 Vygotsky의 근접발달영역(Zone of Proximal Development, ZPD)을 계산적으로 구현한 Agent K를 제시하며, 이를 통해 LLM 기반 자율 에이전트가 실제 데이터 과학 경진대회(Kaggle)에서 최상위 인간 수준의 성능을 달성하였다.

Motivation

Achievement

Figure 2

스캐폴드 기반 경험적 학습에서 자율적 일반화로의 진행 흐름

Figure 4

Agent K의 Elo-MMR 점수와 인간 참여자들의 성능 비교

  1. Kaggle 최상위 성능 달성:
    • Elo-MMR 점수 1694로 Kaggle Masters(상위 2%, 20만+ 사용자 중)의 중앙값 수준 도달
    • 81개 과제 전반에서 완전 자동화된 end-to-end 데이터 과학 파이프라인 구축
    • 상금이 수여되는 경진대회에서 금메달 4개, 은메달 4개 달성
  2. 다중 모달리티에서의 일관된 성능:
    • 표형 데이터(tabular), 컴퓨터 비전(vision), 자연어처리(NLP) 과제 전반에서 인간 경쟁자 수준의 성과
    • 총 메달 등급: 금메달 9개, 은메달 8개, 동메달 12개 (다양한 경진대회)
  3. 완전 자율 에이전트의 첫 사례:
    • 인간 개입 없이 Kaggle 문제 페칭, 솔루션 구축, 반복 개선, 결과 제출의 전 과정 자동화
    • 오프라인 데이터셋이나 부분 자동화에 의존하지 않는 실제 플랫폼 통합

How

Figure 1

내재적 및 외재적 함수의 구성적 순환 구조

핵심 계산적 형식화

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 인지 과학 이론(Kolb, Vygotsky)을 엄밀하게 계산적으로 구현하여 LLM 기반 자율 에이전트의 설계 원리를 제시하고, 이를 실제 최고 수준의 Kaggle 경진대회에서 검증함으로써 AI 일반화 능력의 새로운 수준을 입증한 매우 의미 있는 연구이다. 다만 계산 효율성, 오류 분석 정확성, 다른 도메인으로의 확장성 측면에서는 추가 연구가 필요하다.

같이 보면 좋은 논문

기반 연구
코드 훈련된 대규모 언어모델 평가가 Agent K의 코딩 능력 기반을 제공한다.
다른 접근
Kaggle 경진대회에서 구조화된 추론과 케이스 기반 추론의 서로 다른 학습 이론 적용 접근법이다.
다른 접근
Kaggle 데이터 과학에서 케이스 기반 추론과 구조화된 추론의 서로 다른 학습 방법론이다.
후속 연구
다중 에이전트 프레임워크를 통한 자동 데이터 과학이 Agent K의 단일 에이전트 접근법을 확장한다.
← 목록으로 돌아가기