A survey of large language models

저자: Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Yang Chen, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu | 날짜: 2023 | URL: https://arxiv.org/abs/2303.18223


Essence

Figure 2

Fig. 2: An evolution process of the four generations of language models (LM) from the perspective of task solving capaci

대규모 언어모델(LLM)의 발전 과정을 통계적 언어모델부터 신경망 언어모델, 사전학습 언어모델을 거쳐 현재의 생성형 대규모 모델까지 체계적으로 조사한 종합 서베이 논문이다.

Motivation

Achievement

Figure 1

Fig. 1: The trends of the cumulative numbers of arXiv papers that contain the keyphrases “language model” (since June 20

How

Figure 3

Fig. 3: A timeline of representative LLMs released in recent years. Models with publicly available checkpoints are

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 이 서베이는 대규모 언어모델의 발전 역사와 핵심 기술을 체계적으로 정리한 매우 시의적절한 종합 자료로, 연구자와 실무자 모두에게 LLM의 현황을 이해하는 데 필수적인 참고자료이다.

같이 보면 좋은 논문

기반 연구
대규모 언어모델에 대한 기본적인 이해가 모든 LLM 연구의 출발점을 제공함
기반 연구
대규모 언어모델에 대한 포괄적 서베이의 수학/물리학 특화 버전입니다.
후속 연구
BERT가 촉발한 트랜스포머 기반 대규모 언어모델 발전의 전체적인 흐름을 이해할 수 있다
후속 연구
일반 LLM 서베이에서 과학 분야 특화 LLM으로 확장된 종합 연구
응용 사례
LLM 신뢰성 평가가 대규모 언어모델 개발과 배포에 실제 적용되는 사례
← 목록으로 돌아가기