Qwen2.5 technical report

저자: Qwen An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxin Yang, Jingren Zhou, Junyang Lin, Kai Dang | 날짜: 2024 | DOI: 아직 미정


Essence

Figure 1

Qwen 시리즈의 반복적 개발 과정에서 데이터 스케일링의 중요성을 시각화. Qwen2.5는 18조 토큰으로 사전학습되어 수학, MBPP, BBH, MMLU 벤치마크에서 우수한 성능을 보임.

본 논문은 Qwen2.5 대규모 언어 모델(LLM) 시리즈를 소개하며, 사전학습 데이터를 7조에서 18조 토큰으로 확대하고, 감독 미세조정(SFT), 직접 선호도 최적화(DPO), 그룹 상대 정책 최적화(GRPO) 등 고도화된 후학습 기법을 적용하여 이전 버전 대비 대폭 향상된 성능을 달성했다.

Motivation

Achievement

Figure 2

Qwen2.5-Turbo의 100만 토큰 길이 Passkey Retrieval 작업 성능. 초장문 처리 능력을 입증.

  1. 데이터 스케일링의 효과: 사전학습 데이터를 18조 토큰으로 확대함으로써 수학, 코딩, 상식 및 전문 지식에서 현저한 향상 달성. 특히 MMLU, BBH, MBPP 벤치마크에서 이전 버전 대비 큰 성능 향상.
  2. 경쟁력 있는 오픈 가중치 모델: Qwen2.5-72B-Instruct가 약 5배 큰 Llama-3-405B-Instruct와 경쟁 가능한 성능 달성. 0.5B부터 72B까지 7가지 사이즈로 다양한 배포 시나리오 지원.
  3. MoE 기반 API 모델: Qwen2.5-Turbo와 Qwen2.5-Plus가 각각 GPT-4o-mini, GPT-4o와 경쟁 가능한 비용-효율성 제공.
  4. 초장문 처리 능력: Qwen2.5-Turbo가 1M(100만) 토큰 문맥 길이 지원. 생성 길이를 2K에서 8K 토큰으로 확대.
  5. 구조화된 데이터 처리 개선: 표, JSON 등 구조화된 입력/출력에 대한 더 나은 지원.

How

사전학습 데이터 개선

하이퍼파라미터 스케일링 법칙

장문맥 사전학습

Figure 3

Qwen2.5-Turbo와 Qwen2.5-7B의 TTFT(첫 토큰까지의 시간) 비교. 완전 어텐션 대비 최적화된 구현의 효율성을 보여줌.

아키텍처 특징

후학습(Post-training)

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

기반 연구
Llama 3 모델군의 아키텍처와 훈련 방법론이 Qwen2.5 개발의 기술적 벤치마크를 제공한다
다른 접근
DeepSeek-v3와 Qwen2.5의 대규모 언어모델 개발 및 최적화 전략을 비교 분석할 수 있다
후속 연구
Phi-4의 효율적인 소형 모델 접근법이 Qwen2.5의 대규모 모델과 상호 보완적인 연구 방향을 제시한다
← 목록으로 돌아가기