Towards reasoning era: A survey of long chain-of-thought for reasoning large language models

저자: Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen | 날짜: 2025 | DOI: N/A


Essence

Figure 2

Long CoT와 Short CoT의 구별: 깊은 추론(Deep Reasoning), 광범위한 탐색(Extensive Exploration), 실현 가능한 반성(Feasible Reflection)의 세 가지 핵심 특성

OpenAI-o1과 DeepSeek-R1 같은 추론 대형언어모델(RLLMs)의 성공은 장문의 체인오브쏘트(Long CoT) 특성에 기인하며, 본 논문은 Long CoT와 전통적 Short CoT의 구별, 핵심 특성, 그리고 관련 현상들에 대한 최초의 종합적 분석을 제공한다.

Motivation

Achievement

Figure 1

지난 3년간 선택된 Long CoT의 진화: 깊은 추론, 실현 가능한 반성, 광범위한 탐색의 세 가지 특성을 색상 분기로 표현

Figure 3

Long CoT의 분류법: 깊은 추론 형성(자연어, 구조화된 언어, 잠재 공간), 깊은 추론 학습(모방학습, 자기학습), 실현 가능한 반성(전체 피드백, 프로세스 피드백), 광범위한 탐색(탐색 스케일링, 내부/외부 탐색)

  1. 체계적 구별: Long CoT를 형식적으로 정의하고 Short CoT와의 차이를 수식화함.
    • Short CoT: $\text{CoT}_S = R(\{n_i\}^k_{i=1}|(k \leq B_s) \land (j=1 \Leftrightarrow \forall i \leq k, n_i \to n_{i+j}) \land (\forall i \neq j \leq k, n_i \neq n_j))$
    • Long CoT는 경계 $B_l \gg B_s$로 확장하며, 깊이 제약을 완화함
  2. 세 가지 핵심 특성 정의:
    • Deep Reasoning: 복잡한 구조 전반에서 엄밀한 논리적 분석을 수행하는 능력
    • Extensive Exploration: 평행 불확실 노드 생성 및 알려진 논리에서 미지의 논리로의 전환
    • Feasible Reflection: 논리적 연결의 피드백 및 정제
  3. 핫 현상의 체계적 분석: overthinking, inference-time scaling, "Aha Moment" 등의 출현 메커니즘 설명

How

Figure 5

깊은 추론의 세 가지 주요 형식: 자연어(CoT, MathPrompter), 구조화된 언어(PoT, CoC), 잠재 공간(Quiet-STaR, PlanningTokens)

Deep Reasoning Formation (깊은 추론 형성):

Deep Reasoning Learning (깊은 추론 학습):

Feasible Reflection (실현 가능한 반성):

Extensive Exploration (광범위한 탐색):

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 RLLMs의 중심 기술인 Long CoT를 처음으로 체계적으로 분석한 중요한 종합 설문으로, 명확한 분류 체계와 풍부한 사례를 제공하여 후속 연구의 지도를 제시한다. 다만 이론적 깊이와 일부 현상의 설명이 추가 발전의 여지를 남긴다.

같이 보면 좋은 논문

기반 연구
긴 추론 체인 생성을 위해서는 검색 증강 생성 기술이 핵심 기반 기술로 필요하다.
기반 연구
OpenAI o1의 긴 추론 체인 특성이 복합 추론 작업에서 높은 성능을 달성하는 기반 메커니즘을 제공한다.
기반 연구
NLP에서 LLM의 기본 원리 이해가 긴 추론 체인과 같은 고급 능력 개발의 기반이 된다.
기반 연구
장문 체인 추론 연구가 멀티모달 체인 추론의 기초 이론을 제공함
다른 접근
긴 사고 연쇄 추론에 대한 종합 조사가 WoT의 단계별 오류 수정과는 다른 연속적 추론 체계를 제시한다.
후속 연구
과학 특화 CoT에서 일반적인 장문 체인 추론으로 확장된 연구
응용 사례
검색 증강 생성 기술이 긴 추론 체인 생성에 핵심적으로 활용되는 구체적 응용 사례를 보여준다.
응용 사례
OpenAI o1의 긴 추론 체인 특성이 실제로 복합 추론 작업에서 어떻게 활용되는지 구체적 사례를 보여준다.
반론/비판
긴 추론 체인의 장점과 달리 언어 모델의 인과 추론에서 발생하는 체계적 편향 문제를 대조적으로 제시한다.
반론/비판
긴 추론 체인의 발전된 능력과 달리 언어 모델이 여전히 인간과 유사한 인과 추론 편향을 보인다는 한계를 지적한다.
← 목록으로 돌아가기