Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

저자: Machel Reid, N. Savinov, Denis Teplyashin, Dmitry Lepikhin, T. Lillicrap, Jean-Baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew M. Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola | 날짜: 2024 | DOI: arXiv:2403.05530v5


Essence

Figure 1

Gemini 1.5 Pro는 모든 모달리티(텍스트, 비디오, 오디오)에서 1M 토큰까지 99.7% 이상의 "needle" recall을 달성하며, 텍스트 모달리티에서는 10M 토큰까지 성능을 유지함

Gemini 1.5는 최대 1,000만 토큰의 컨텍스트를 처리할 수 있는 멀티모달 대규모 언어 모델로, 기존 모델들(Claude 3.0의 20만 토큰, GPT-4 Turbo의 12.8만 토큰)보다 획기적으로 확장된 컨텍스트 윈도우를 구현했다. Gemini 1.5 Pro와 Flash 두 가지 변형은 긴 문서, 영상, 오디오에 대한 검색 및 추론 능력에서 최첨단 성능을 달성하면서도 계산 효율성을 유지한다.

Motivation

Achievement

Figure 2

Gemini 1.5 Pro (May 2024)는 MATH (58.5% → 67.7%), GPQA (41.5% → 46.2%), MathVista (54.7% → 63.9%), EgoSchema (65.1% → 72.2%) 등 다양한 벤치마크에서 February 버전 대비 일관된 개선을 보임

  1. 초장문맥 처리: Gemini 1.5 Pro는 텍스트에서 1,000만 토큰(약 700만 단어), 오디오에서 970만 토큰(최대 107시간), 비디오에서 990만 토큰(최대 10.5시간)까지 처리 가능하며, 모든 모달리티에서 99% 이상의 "needle" recall 달성.
  2. 핵심 능력 강화: Gemini 1.5 Pro는 Gemini 1.0 Ultra와 비교하여 종합 벤치마크의 77.8% (35/45), 텍스트의 84.2% (16/19), 비전의 85.7% (18/21)에서 우수한 성능을 달성하면서도, 학습 계산량은 훨씬 적음. 수학(+49.6%), 과학 및 추론(+30.8%), 다국어성(+21.4%), 코드(+21.5%) 등에서 대폭 개선.
  3. 혁신적 in-context learning: 200명 미만의 화자를 가진 파푸아 언어 "Kalamang"의 500쪽 문법 자료를 컨텍스트에 제공하면, 같은 자료로 학습한 인간과 유사한 수준의 번역 능력을 획득. 처음으로 멀티모달 자료(텍스트 + 음성)로부터 새로운 언어의 음성 인식도 학습 가능.
  4. 실무 생산성 향상: 10개 직종에서 전문가와의 협업을 통해 26~75%의 작업 시간 단축 달성.

How

Figure 4

Kalamang 언어: 500쪽 문법 참고서와 사전을 컨텍스트에 제공하여 영어-Kalamang 번역을 학습

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

기반 연구
Llama 3 모델군이 제공하는 기반 아키텍처와 확장된 컨텍스트 윈도우 구현 방법을 비교할 수 있다
다른 접근
DeepSeek-v3와 Gemini 1.5의 긴 컨텍스트 처리 능력을 비교하여 멀티모달 이해의 다른 접근법을 분석할 수 있다
후속 연구
Gemini 모델 패밀리의 발전 과정에서 컨텍스트 확장과 성능 향상의 연속성을 이해할 수 있다
← 목록으로 돌아가기