Tree-planner: Efficient close-loop task planning with large language models

저자: Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo | 날짜: 2023 | DOI: N/A


Essence

Figure 2

TREE-PLANNER의 3단계 파이프라인: (I) 실행 전 잠재적 계획 샘플링, (II) 샘플링된 계획들을 집계하여 액션 트리 구성, (III) 폐루프에서 LLM이 액션 트리 상에서 의사결정

대규모 언어모델(LLM)을 활용한 폐루프 태스크 플래닝에서 토큰 효율성과 오류 수정 효율성을 동시에 개선하는 TREE-PLANNER를 제안한다. 기존의 반복적 플래닝(iterative planning) 대신 계획 샘플링-액션 트리 구성-그라운디드 의사결정의 3단계로 재구조화하여 토큰 소비 92.2% 감소와 오류 수정 40.5% 감소를 달성한다.

Motivation

Achievement

Figure 1

기존 반복적 플래닝 패러다임의 개요

  1. 토큰 효율성: ITERATIVE-PLANNER 대비 53.29%, LOCAL REPLAN 대비 74.36%, GLOBAL REPLAN 대비 92.24% 토큰 소비 감소. 환경 정보와 문맥 예시가 계획 샘플링 단계에서 단 1회만 청구되기 때문.
  2. 수정 효율성: LOCAL REPLAN 대비 37.99%, GLOBAL REPLAN 대비 40.52% 오류 수정 횟수 감소. 액션 트리의 백트래킹으로 불필요한 재결정 감소.
  3. 성능: VirtualHome 환경에서 수정 없는 설정(no correction)에서 기존 최고 성능 대비 3.65%, 수정 있는 설정(with correction)에서 1.29% 향상.

How

Figure 3

액션 트리 구성 프로세스: 샘플링된 계획들의 공통 프리픽스를 집계하여 트리 구조로 변환

Stage I. 계획 샘플링 (Plan Sampling)

Stage II. 액션 트리 구성 (Action Tree Construction)

Stage III. 그라운디드 의사결정 (Grounded Deciding)

핵심 메커니즘

Originality

Limitation & Further Study

Evaluation

총평: TREE-PLANNER는 LLM 기반 폐루프 태스크 플래닝의 토큰 효율성과 오류 수정 효율성을 동시에 해결하는 실용적이고 효과적인 방법으로, 계획 샘플링과 의사결정 분리라는 명확한 패러다임 전환을 제시한다. 다만 VirtualHome에 국한된 평가와 실제 로봇 환경으로의 검증 필요가 남아있어 완성도 4점이다.

같이 보면 좋은 논문

기반 연구
LLM의 도구 사용에 대한 체계적 조사가 TREE-PLANNER의 효율적인 태스크 플래닝 설계의 이론적 기초를 제공한다.
기반 연구
TREE-PLANNER의 효율적인 폐루프 태스크 플래닝 기법이 장기 일관성 벤치마크 설계의 방법론적 기반이 된다.
응용 사례
LLM의 도구 사용 방법론이 TREE-PLANNER의 효율적인 폐루프 태스크 플래닝 시스템에 구체적으로 적용된다.
반론/비판
TREE-PLANNER는 대규모 LLM의 효율성 개선에 집중하는 반면, 소형 모델 논문은 LLM 자체의 한계를 지적한다.
← 목록으로 돌아가기