A comprehensive survey on long context language modeling

Essence

Figure 2. Taxonomy of Long Context Language Modeling.

장문맥 언어모델(LCLM) 구축, 훈련, 배포, 평가를 위한 포괄적 조사로, 데이터 전략부터 인프라, 평가 패러다임, 응용 분야까지 체계적으로 정리한 대규모 서베이 논문.

Known: 기존 언어모델들은 고정된 컨텍스트 윈도우 내에서 작동하며, 최근 몇 년간 컨텍스트 길이가 4K에서 128K, 1M, 심지어 10M 토큰으로 기하급수적으로 확장되었다.
Gap: 장문맥 처리의 효율성, 훈련 인프라, 신뢰할 수 있는 평가 프레임워크, 모델 내부 메커니즘 해석에 대한 체계적이고 포괄적인 이해가 부족하다.
Why: Tolstoy 규모의 장편 텍스트를 단일 패스로 처리하고, o1형 추론, 복잡한 에이전트 워크플로우, 효율적 정보 검색 등 새로운 능력을 가능하게 하기 때문에 중요하다.
Approach: 3개의 핵심 연구 질문(RQ1: 효과적이고 효율적인 LCLM 구축, RQ2: 효율적 훈련 및 배포, RQ3: 포괄적 평가 및 분석)을 중심으로 데이터, 아키텍처, 워크플로우, 인프라, 평가, 분석, 응용을 체계적으로 검토한다.

Figure 4. Taxonomy of Long Context Model Architectures.

데이터 전략: 사전학습(pre-training)과 후학습(post-training) 단계의 데이터 필터링, 혼합, 합성 방법론 정리
아키텍처 설계: 위치 임베딩(Position Embedding), 트랜스포머 기반 수정, 선형 복잡도(Linear-Complexity) 아키텍처, 하이브리드 접근법 분류 및 분석
워크플로우 설계: 프롬프트 압축(Hard/Soft), 메모리 기반 방법, RAG, 에이전트 기반 방법 체계화
인프라: 훈련 최적화(I/O, GPU 메모리, 통신-계산 오버래핑), 추론 최적화(양자화, 메모리 관리, 예측 디코딩)
평가 패러다임: 장문맥 이해(comprehension) 및 장문 생성(long-form generation) 평가 벤치마크 및 방법론
분석: 성능 분석, 모델 구조 분석(위치 임베딩, 어텐션, 계층 상호작용) 및 메커니즘 해석

Figure 3. Illustration of training pipeline of LCLMs.

첫 번째 포괄적 장문맥 LLM 서베이: 데이터, 아키텍처, 워크플로우, 인프라, 평가, 분석, 응용을 통합한 체계적 정리
3층 구조의 연구 질문: RQ1-RQ3를 명확히 구분하여 학술적 깊이와 실무적 유용성 동시 확보
평가 패러다임의 비판적 분석: 'Support context length의 거짓 약속' 등 성과 주장의 신뢰성 문제 제기", '메커니즘 해석 중심: 어텐션 분석, 계층 상호작용, 위치 인코딩 속성 등 내부 동작 원리 체계화
다양한 응용 영역 통합: 에이전트, RAG, 챗봇, 코드, 전통 NLP, 멀티모달, 도메인 특화 응용 분류