A survey of large language models

Essence

Fig. 2: An evolution process of the four generations of language models (LM) from the perspective of task solving capaci

대규모 언어모델(LLM)의 발전 과정을 통계적 언어모델부터 신경망 언어모델, 사전학습 언어모델을 거쳐 현재의 생성형 대규모 모델까지 체계적으로 조사한 종합 서베이 논문이다.

Known: 언어모델은 1990년대부터 연구되어 왔으며, Transformer 기반 사전학습 언어모델(PLM)의 등장으로 자연어처리 성능이 크게 향상되었다. 최근 모델 규모 증가에 따른 새로운 능력(인-컨텍스트 러닝 등)이 발현되고 있다.
Gap: LLM의 급속한 발전에도 불구하고 체계적인 기술 진화, 적응 튜닝, 활용 방식, 성능 평가에 대한 종합적 이해가 부족하다. ChatGPT 이후 관련 연구가 폭증하면서 통일된 관점의 조사가 필요하다.
Why: LLM은 자연어처리를 넘어 다양한 실세계 문제를 해결할 수 있는 범용 AI 알고리즘으로 진화하고 있으며, 이러한 기술 진화는 전체 AI 커뮤니티에 혁명적 영향을 미치고 있기 때문이다.
Approach: 4가지 주요 측면(사전학습, 적응 튜닝, 활용, 성능 평가)에서 LLM의 기술 진화와 핵심 발견사항을 체계적으로 검토하고, 이용 가능한 자원과 미래 연구 방향을 정리한다.

Fig. 1: The trends of the cumulative numbers of arXiv papers that contain the keyphrases “language model” (since June 20

언어모델의 4단계 진화 프레임워크: 통계적 언어모델(1990s) → 신경망 언어모델(2013) → 사전학습 언어모델(2018) → 대규모 언어모델(2020)로의 체계적 진화 과정을 시각화
스케일링 법칙과 창발 능력 규명: 모델 파라미터가 특정 규모를 초과하면 인-컨텍스트 러닝 등 소규모 모델에 없는 특별한 능력이 나타나는 현상 분석
ChatGPT 이후의 연구 급증 정량화: arXiv 논문 수가 일일 평균 0.40건에서 8.58건으로 증가(20배 이상)하여 LLM 연구의 폭증적 성장 입증
종합적 기술 체계화: 사전학습, 프롬프트 기반 완성, 적응 튜닝, 정렬 등 LLM의 핵심 기술들을 통합적으로 정리

Fig. 3: A timeline of representative LLMs released in recent years. Models with publicly available checkpoints are

논문이 2026년 3월 버전으로 매우 최신이지만, LLM 기술의 급속한 발전으로 인해 몇 개월 후 새로운 모델과 기법이 지속적으로 등장할 수 있다
정성적 평가와 정량적 지표의 균형이 필요하며, 특정 작업(코드 생성, 추론 등)에 대한 상세 분석 보강 가능
LLM의 사회적 영향(윤리, 편향, 환경 비용 등)에 대한 심화 논의 부족
후속연구로는 LLM의 해석 가능성(Interpretability) 향상, 환각(Hallucination) 감소, 멀티모달 모델 통합 방향 제시 필요

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 이 서베이는 대규모 언어모델의 발전 역사와 핵심 기술을 체계적으로 정리한 매우 시의적절한 종합 자료로, 연구자와 실무자 모두에게 LLM의 현황을 이해하는 데 필수적인 참고자료이다.

기반 연구

대규모 언어모델에 대한 기본적인 이해가 모든 LLM 연구의 출발점을 제공함

기반 연구

대규모 언어모델에 대한 포괄적 서베이의 수학/물리학 특화 버전입니다.

후속 연구

BERT가 촉발한 트랜스포머 기반 대규모 언어모델 발전의 전체적인 흐름을 이해할 수 있다

후속 연구

일반 LLM 서베이에서 과학 분야 특화 LLM으로 확장된 종합 연구

응용 사례

LLM 신뢰성 평가가 대규모 언어모델 개발과 배포에 실제 적용되는 사례