저자: Machel Reid, N. Savinov, Denis Teplyashin, Dmitry Lepikhin, T. Lillicrap, Jean-Baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew M. Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola | 날짜: 2024 | DOI: arXiv:2403.05530v5
Gemini 1.5 Pro는 모든 모달리티(텍스트, 비디오, 오디오)에서 1M 토큰까지 99.7% 이상의 "needle" recall을 달성하며, 텍스트 모달리티에서는 10M 토큰까지 성능을 유지함
Gemini 1.5는 최대 1,000만 토큰의 컨텍스트를 처리할 수 있는 멀티모달 대규모 언어 모델로, 기존 모델들(Claude 3.0의 20만 토큰, GPT-4 Turbo의 12.8만 토큰)보다 획기적으로 확장된 컨텍스트 윈도우를 구현했다. Gemini 1.5 Pro와 Flash 두 가지 변형은 긴 문서, 영상, 오디오에 대한 검색 및 추론 능력에서 최첨단 성능을 달성하면서도 계산 효율성을 유지한다.
Gemini 1.5 Pro (May 2024)는 MATH (58.5% → 67.7%), GPQA (41.5% → 46.2%), MathVista (54.7% → 63.9%), EgoSchema (65.1% → 72.2%) 등 다양한 벤치마크에서 February 버전 대비 일관된 개선을 보임
Kalamang 언어: 500쪽 문법 참고서와 사전을 컨텍스트에 제공하여 영어-Kalamang 번역을 학습