Executable Code Actions Elicit Better LLM Agents

저자: Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li | 날짜: 2024 | DOI: 10.48550/arXiv.2402.01030


Essence

Figure 1

CodeAct와 Text/JSON 액션의 비교: (상) 다양한 액션 형식 간 예시 비교, (하) M3ToolEval 벤치마크에서의 정량적 결과

LLM 에이전트의 액션 공간을 통합하기 위해 실행 가능한 Python 코드를 직접 사용하는 CodeAct 프레임워크를 제안하며, 기존의 JSON/텍스트 기반 액션 방식 대비 최대 20% 높은 성공률을 달성한다.

Motivation

Achievement

Figure 2

LLM 에이전트의 일반적 다중턴 상호작용 프레임워크: 에이전트, 사용자, 환경의 역할을 나타내며 CodeAct의 역할과 데이터 수집의 동기를 설명한다.

  1. 광범위한 실증적 검증: 17개 LLM(오픈소스 및 폐쇄형)에 대한 실험으로 CodeAct의 우수성 입증. 기본 도구 호출 작업(API-Bank)에서는 대부분의 모델이 기준선과 동등하거나 우수한 성능 달성.
  2. 복잡한 작업에서의 성능 향상: 새로운 벤치마크 M3ToolEval (82개 인간 큐레이션 작업)에서 최대 20% 절대 성공률 향상 및 액션 수 30% 감소. 모델 능력이 증가할수록 성능 격차 확대.
  3. 실용적 에이전트 개발: CodeActInstruct (7k 다중턴 상호작용) 데이터셋 수집 및 이를 활용한 CodeActAgent (Llama2, Mistral 기반) 개발. 모델 학습, 데이터 시각화 등 고도화된 작업을 기존 Python 패키지로 자동 디버깅 능력과 함께 수행.
  4. 일반 능력 보존: 기존 지시 튜닝 데이터와 함께 사용하여 에이전트 작업 성능 개선 동시에 일반 능력(QA, 코딩, 지시 따르기) 유지.

How

Figure 3

CodeActAgent (Mistral-7b)와의 Python 패키지 다중턴 상호작용 예시: 컨텍스트 내 시연 없이 고도화된 작업 수행

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.3/5

총평: CodeAct는 LLM 에이전트의 액션 공간 표현에 대한 패러다임 전환을 제시하며, 광범위한 실증적 검증과 실용적 에이전트 개발을 통해 높은 실용 가치를 입증했다. 다만 보안, 신뢰성, 프로그래밍 언어 다양성 측면의 개선과 물리적 환경에서의 추가 검증이 필요하다.

같이 보면 좋은 논문

기반 연구
코드 훈련된 대규모 언어모델 평가가 CodeAct의 Python 코드 실행 능력 기반이다.
기반 연구
기호적 세계 모델 생성이 CodeAct의 실행 가능한 코드 액션 설계에 이론적 기반을 제공한다.
다른 접근
LLM 에이전트 액션에서 실행 가능한 Python 코드와 텍스트 기반 추론-행동의 서로 다른 접근법이다.
다른 접근
ReAct의 텍스트 기반 행동 대신 실행 가능한 Python 코드를 직접 액션으로 사용하는 다른 접근법이다.
후속 연구
실행 가능한 코드 액션 접근법이 TEXT2WORLD의 기호적 표현을 실제 실행으로 확장한다.
← 목록으로 돌아가기