The Llama 3 Herd of Models

저자: Grattafiori, Aaron, Dubey, Abhimanyu, Jauhri, Abhinav 외 다수 (Meta AI) | 날짜: 2024.07.23 | DOI: arXiv:2407.21783


Essence

Meta가 발표한 Llama 3는 8B, 70B, 405B 파라미터 규모의 대규모 언어모델 계열로, 15T 다국어 토큰으로 사전학습되었으며 128K 토큰 컨텍스트 윈도우를 지원하는 고성능 기반모델(foundation model)이다. GPT-4 수준의 성능을 달성하면서 다국어, 코딩, 추론, 도구 사용 능력을 기본적으로 지원한다.

Motivation

Achievement

  1. 최고 성능 달성:
    • 405B 모델이 MMLU(87.3), HumanEval(89.0), GSM8K(96.8), ARC Challenge(96.9)에서 GPT-4 대비 동등 이상의 성능 달성
    • 8B, 70B 소형 모델도 동급 파라미터 모델 중 최고 성능(8B: MMLU 69.4, HumanEval 72.6)
  2. 다국어 및 장문맥 지원:
    • 8개 이상 언어 지원 (MGSM 91.6)
    • 128K 토큰 컨텍스트 윈도우 (ZeroSCROLLS/QuALITY 95.2)
  3. 도구 사용 능력: BFCL에서 88.5 달성하여 제로샷 함수 호출 능력 확보
  4. 멀티모달 확장: 이미지, 비디오, 음성 인식 능력을 어댑터 기반 방식으로 통합 (아직 개발 중)
  5. 안전성 강화: Llama Guard 3를 통한 입출력 안전 필터링 및 DPO 기반의 인간 피드백 정렬

How

Figure 1: Llama 3의 전체 아키텍처 및 훈련 파이프라인

사전학습 (Pre-training)

사후학습 (Post-training)

멀티모달 확장 (미출시)

Originality

Limitation & Further Study

Evaluation

Novelty: 3.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4/5

총평: Llama 3는 데이터 품질 개선과 대규모 투자를 통해 GPT-4 수준의 성능을 달성한 중요한 오픈소스 기반모델이지만, 멀티모달 통합의 미흡함과 기술적 세부사항의 제한된 공개는 완전히 새로운 방법론보다는 기존 기법의 정교한 조합과 규모화의 측면에서 가치를 갖는다.

같이 보면 좋은 논문

기반 연구
저자원 언어 번역에서 LLM 기반 역번역 기법의 효과를 분석하여 다국어 모델 개발의 기초 지식을 제공한다.
기반 연구
Llama 3 모델군이 제공하는 기반 아키텍처와 확장된 컨텍스트 윈도우 구현 방법을 비교할 수 있다
기반 연구
Llama 3 모델군의 아키텍처와 훈련 방법론이 Qwen2.5 개발의 기술적 벤치마크를 제공한다
다른 접근
대규모 범용 모델 vs 중간 규모 STEM 특화 모델로 서로 다른 규모와 전문화 전략을 비교할 수 있다.
다른 접근
STEM 추론에 특화된 소규모 모델 vs 다목적 대규모 모델로 효율성과 성능 간 트레이드오프를 비교할 수 있다.
후속 연구
멀티모달 AI 모델의 발전 과정에서 Gemini 이후의 기술적 진보를 확인할 수 있다
응용 사례
다국어 토큰 학습을 통한 강력한 기반모델이 저자원 언어 번역 성능 향상에 기여한다.
반론/비판
Google의 경량화 접근법과 Meta의 대규모 모델군 전략의 대조적인 개발 철학을 비교할 수 있다
← 목록으로 돌아가기