A survey on transformer context extension: Approaches and evaluation

저자: Yijun Liu, Jinzheng Yu, Yang Xu, Zhongyang Li, Qingfu Zhu | 날짜: 2025 | DOI: arXiv:2503.13299v2


Essence

Transformer 기반 대규모 언어 모델(LLM)은 사전 학습된 컨텍스트 길이를 초과하는 장문(long context)에서 성능 저하를 보이는데, 본 논문은 이를 해결하기 위한 접근 방식(위치 인코딩, 컨텍스트 압축, 검색 증강, 주의 패턴)과 평가 방법을 체계적으로 분류한 종합 서베이이다.

Motivation

Achievement

Figure 1: Framework of survey

Figure 1: 서베이의 프레임워크. 3가지 핵심 도전 과제(섹션 2)와 4가지 접근 방식 분류(섹션 3), 평가 관점(섹션 4), 향후 방향(섹션 5)

  1. 새로운 분류 체계: 장문 처리 방법을 위치 인코딩(Positional Encoding), 컨텍스트 압축(Context Compression), 검색 증강(Retrieval Augmented), 주의 패턴(Attention Pattern) 4가지로 체계화하여 기존 접근의 중복성 제거
  2. 포괄적 평가 프레임워크: 데이터(길이 수준, 도메인, 예제 수), 작업(QA, Needle-in-a-Haystack, 코드, 통계, In-Context Learning, 텍스트 생성), 메트릭(알고리즘 기반, 모델 기반, LLM 기반) 3개 차원으로 구성
  3. 미해결 문제 명시: 방법 통합, "Train Short, Test Long" 학습, 장문 생성, 정보 필터링과 생성 효과 간 trade-off, sparse attention의 "Lost-in-the-Middle" 문제 등 5가지 미래 연구 방향 제시

How

핵심 도전 과제 (Challenges)

접근 방식 상세 분류

1. 위치 인코딩 (Positional Encoding)

```

sim(qₘ, kₙ) = qₘᵀkₙ + f_bias(m, n)

```

2. 컨텍스트 압축 (Context Compression)

3. 검색 증강 (Retrieval Augmented)

4. 주의 패턴 (Attention Pattern)

평가 방법론

데이터: 길이 수준별(짧음/중간/긴), 도메인별, 예제 수 등으로 분류

작업:

메트릭:

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 Transformer 기반 장문 처리를 위한 첫 번째 포괄적이고 체계적인 서베이로서, 새로운 분류 체계와 평가 프레임워크를 통해 빠르게 성장하는 이 분야에 명확한 구조를 제공한다. 특히 방법론뿐 아니라 평가 측면을 동등하게 다룬 것과 미해결 문제를 명시한 점이 차별적이나, 기초 이론(OOD 등)과 실제 방법들 간의 더 명확한 인과 연결이 이루어진다면 더욱 통찰력 있는 가이드가 될 것이다.

같이 보면 좋은 논문

기반 연구
대규모 멀티뷰 클러스터링의 장문 임베딩을 위한 Transformer 컨텍스트 확장 기법 활용
기반 연구
Transformer 컨텍스트 확장 서베이 자체가 장문 처리의 기초 연구
응용 사례
Transformer 컨텍스트 확장 기법을 검색-증강 생성의 최적 컨텍스트 길이 결정에 적용
← 목록으로 돌아가기