저자: Grattafiori, Aaron, Dubey, Abhimanyu, Jauhri, Abhinav 외 다수 (Meta AI) | 날짜: 2024.07.23 | DOI: arXiv:2407.21783
Meta가 발표한 Llama 3는 8B, 70B, 405B 파라미터 규모의 대규모 언어모델 계열로, 15T 다국어 토큰으로 사전학습되었으며 128K 토큰 컨텍스트 윈도우를 지원하는 고성능 기반모델(foundation model)이다. GPT-4 수준의 성능을 달성하면서 다국어, 코딩, 추론, 도구 사용 능력을 기본적으로 지원한다.
사전학습 (Pre-training)
사후학습 (Post-training)
멀티모달 확장 (미출시)
총평: Llama 3는 데이터 품질 개선과 대규모 투자를 통해 GPT-4 수준의 성능을 달성한 중요한 오픈소스 기반모델이지만, 멀티모달 통합의 미흡함과 기술적 세부사항의 제한된 공개는 완전히 새로운 방법론보다는 기존 기법의 정교한 조합과 규모화의 측면에서 가치를 갖는다.