저자: Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen | 날짜: 2025 | DOI: N/A
Long CoT와 Short CoT의 구별: 깊은 추론(Deep Reasoning), 광범위한 탐색(Extensive Exploration), 실현 가능한 반성(Feasible Reflection)의 세 가지 핵심 특성
OpenAI-o1과 DeepSeek-R1 같은 추론 대형언어모델(RLLMs)의 성공은 장문의 체인오브쏘트(Long CoT) 특성에 기인하며, 본 논문은 Long CoT와 전통적 Short CoT의 구별, 핵심 특성, 그리고 관련 현상들에 대한 최초의 종합적 분석을 제공한다.
지난 3년간 선택된 Long CoT의 진화: 깊은 추론, 실현 가능한 반성, 광범위한 탐색의 세 가지 특성을 색상 분기로 표현
Long CoT의 분류법: 깊은 추론 형성(자연어, 구조화된 언어, 잠재 공간), 깊은 추론 학습(모방학습, 자기학습), 실현 가능한 반성(전체 피드백, 프로세스 피드백), 광범위한 탐색(탐색 스케일링, 내부/외부 탐색)
깊은 추론의 세 가지 주요 형식: 자연어(CoT, MathPrompter), 구조화된 언어(PoT, CoC), 잠재 공간(Quiet-STaR, PlanningTokens)
Deep Reasoning Formation (깊은 추론 형성):
Deep Reasoning Learning (깊은 추론 학습):
Feasible Reflection (실현 가능한 반성):
Extensive Exploration (광범위한 탐색):
총평: 본 논문은 RLLMs의 중심 기술인 Long CoT를 처음으로 체계적으로 분석한 중요한 종합 설문으로, 명확한 분류 체계와 풍부한 사례를 제공하여 후속 연구의 지도를 제시한다. 다만 이론적 깊이와 일부 현상의 설명이 추가 발전의 여지를 남긴다.