PlanGenLLMs: A Modern Survey of LLM Planning Capabilities

저자: Hui Wei, Zihao Zhang, Shenghua He, Tian Xia, Shijia Pan | 날짜: 2025 | DOI: 10.48550/arXiv.2502.11221


Essence

Figure 1

Figure 1: LLM 계획 수립의 분류체계 - 6가지 핵심 성능 기준과 대표 기법들의 매핑

본 논문은 대규모 언어 모델(LLM)의 계획 수립(Planning) 능력에 대한 포괄적 조사 연구로, 초기 AI 계획 시스템의 평가 기준을 현대화하여 6가지 핵심 성능 지표를 통해 LLM 기반 계획 수립 시스템을 체계적으로 분석한다. 이를 통해 다양한 도메인에서 LLM 계획 시스템의 비교 평가 틀을 제공하고 향후 연구 방향을 제시한다.

Motivation

Achievement

  1. 6가지 핵심 평가 기준의 체계화:
    • 완전성(Completeness): 계획 정확성(plan correctness)과 달성 가능성(plan achievability) 평가
    • 실행 가능성(Executability): 객체 접지(object grounding), 행동 접지(action grounding), 샘플-필터(sample-then-filter), 폐쇄 루프 시스템(closed-loop systems)
    • 최적성(Optimality): LLM+최적화기, A* 탐색 기반 방법론
    • 표현력(Representation): LLM-as-a-Translator vs. LLM-as-a-Planner 구분
    • 일반화(Generalization): 미세 조정, 일반화된 계획, 기술 저장소 기반 접근
    • 효율성(Efficiency): LLM/월드 모델 호출 감소, 입출력 토큰 단축, 소형 모델 활용
  2. 포괄적 기법 분류:
    • 태스크 분해(sequential, parallel, asynchronous)
    • LLM+고전 계획 수립 하이브리드 방식(LLM+P, LLM-DP 등)
    • 탐색 알고리즘(Tree of Thought, MCTS, Greedy Best-First Search)
    • 미세 조정 기반 접근(RobLM, Agent-FLAN, AgentOhana)
  3. 다양한 도메인 평가 자료:
    • 구체화 환경(BlocksWorld, ALFRED, VirtualHome, ALFWorld)
    • 작업 스케줄링(TravelPlanner)
    • 게임(MineCraft, SmartPlay)
    • 도구 사용, 프로그래밍, 웹 네비게이션 등 다운스트림 태스크

How

LLM 계획 수립 기초 방법론

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 LLM 계획 수립 분야의 현황을 포괄적으로 정리한 중요한 조사 논문으로, 고전 AI 계획 평가 기준을 현대화하여 도메인 횡단적 비교 분석 틀을 제공한다. 다만 새로운 방법론 제안보다는 기존 연구의 체계적 분류에 중점을 두고 있으며, 표현력, 환각, 다중 에이전트 계획 등 미해결 문제들을 향후 연구 과제로 명확히 제시함으로써 학계의 관심을 유도하는 데 효과적이다.

같이 보면 좋은 논문

기반 연구
장문맥 언어모델의 포괄적 조사가 LLM 계획 능력 평가의 기반 이론을 제공한다.
다른 접근
LLM 에이전트의 계획 이해에 대한 두 서베이가 서로 다른 관점에서 계획 능력을 분석한다.
후속 연구
자율 에이전트 서베이의 계획 능력 부분을 현대화된 6가지 성능 지표로 체계적으로 확장한다.
후속 연구
PlanGenLLMs의 LLM 계획 능력 조사를 에이전트 계획이라는 더 구체적 영역으로 심화한 연구이다.
← 목록으로 돌아가기