Small Language Models are the Future of Agentic AI

저자: Peter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov | 날짜: 2025-06-02 | DOI: 10.48550/arXiv.2506.02153


Essence

현재 에이전트 AI 시스템은 대규모 언어모델(LLM)에 의존하고 있으나, 본 논문은 소규모 언어모델(SLM)이 에이전트의 반복적이고 전문화된 작업에 더 적합하며 경제적이므로 에이전트 AI의 미래를 주도할 것이라는 입장을 제시한다.

Motivation

Achievement

Figure 1: An illustration of agentic systems with different modes of agency. Left: Language model agency. The language model acts both as the HCI and the orchestrator of tool calls to carry out a task. Right: Code agency. The language model fills the role of the HCI (optionally) while a dedicated controller code orchestrates all interactions.

에이전트 시스템의 두 가지 운영 방식: 좌측은 언어모델이 인터페이스와 도구 호출을 모두 조율하는 방식, 우측은 코드 기반 컨트롤러가 상호작용을 조율하는 방식

  1. SLM의 충분한 성능 입증:
    • Phi-2 (2.7B): 30B 모델 수준의 상식추론, ~15배 빠른 속도
    • Phi-3 Small (7B): 70B 모델 수준의 코드생성 성능
    • Nemotron-H (2-9B): 30B LLM 수준의 명령어 따르기, 한 자리 수 추론 비용
    • xLAM-2-8B: GPT-4o와 Claude 3.5를 능가하는 도구 호출 성능
    • DeepSeek-R1-Distill-7B: Claude-3.5-Sonnet 및 GPT-4o 초과 성능
  2. 경제성 우월성:
    • 추론 효율성: 7B SLM은 70-175B LLM 대비 10-30배 저렴
    • 미세조정(Fine-tuning) 민첩성: GPU 몇 시간으로 완료 (LLM은 주 단위)
    • 엣지 배포: 소비자 GPU에서 로컬 실행 가능
    • 인프라 운영: GPU/노드 간 병렬화 필요성 감소로 유지보수 비용 절감
  3. 이질형 에이전트 시스템 제안:
    • SLM을 기본 모델로 사용하고 필요시에만 선택적으로 LLM 호출
    • 특화된 SLM 조합으로 모듈식 아키텍처 구성

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 현재 LLM 중심의 에이전트 AI 산업에 대한 경제적·기술적·환경적 비판을 제기하고 SLM 기반 에이전트 시스템으로의 전환을 주장하는 중요한 입장 논문이다. NVIDIA 연구진의 체계적인 주장과 다양한 최신 SLM 모델들의 성능 사례를 통해 기술적 타당성을 입증하며, 수백억 달러 규모의 인프라 투자 불일치 문제를 날카롭게 지적한다. 다만 대규모 실증 데이터와 프로덕션 환경의 검증, 그리고 체계적인 도메인별 경계 조건 분석이 추가되면 더욱 강력한 주장이 될 수 있다. 에이전트 AI의 빠른 성장과 AI 비용 효율성에 대한 업계 관심을 고려할 때, 커뮤니티 논의를 촉발할 만한 가치 있는 기여다.

같이 보면 좋은 논문

기반 연구
LLM과 도구 통합에 대한 포괄적 조사가 소규모 언어모델 기반 에이전트 설계의 이론적 바탕을 제공한다.
기반 연구
LLM과 도구 통합에 대한 체계적 조사가 소규모 언어모델 기반 에이전트 AI 시스템 설계의 이론적 배경을 제공한다.
다른 접근
둘 다 언어모델 기반 자동화를 다루지만 하나는 소형 모델의 효율성에, 다른 하나는 GPT의 AutoML 적용에 초점을 둔다.
반론/비판
TREE-PLANNER는 대규모 LLM의 효율성 개선에 집중하는 반면, 소형 모델 논문은 LLM 자체의 한계를 지적한다.
반론/비판
AutoML-GPT는 GPT의 대규모 모델 활용을 강조하는 반면, 소형 모델 논문은 에이전트에서 SLM의 우위를 주장한다.
← 목록으로 돌아가기