Gemini: a family of highly capable multimodal models

Essence

Gemini 모델은 텍스트, 이미지, 오디오, 비디오의 인터리빙된 시퀀스를 입력으로 받아 텍스트와 이미지가 섞인 응답을 생성할 수 있다.

Google이 개발한 Gemini는 이미지, 오디오, 비디오, 텍스트를 네이티브하게 처리하는 멀티모달 대규모 언어 모델 패밀리로, Ultra, Pro, Nano 세 가지 크기로 제공되며 30개의 32개 벤치마크 중에서 최첨단 성능을 달성한다.

Motivation

Known: 기존 대규모 언어 모델(LLM)들은 주로 텍스트에 중심을 두거나 멀티모달 능력이 제한적이었으며, 서로 다른 크기의 모델 계열이 부족했다.
Gap: 단일 아키텍처로 텍스트, 이미지, 오디오, 비디오를 동시에 처리하면서도 복잡한 추론과 크로스모달 이해를 수행할 수 있는 통합 모델 패밀리가 없었다.
Why: 멀티모달 이해는 교육, 과학, 프로그래밍 등 다양한 실제 응용 분야에서 중요하며, 디바이스 상 배포부터 클라우드 기반 추론까지 다양한 계산 환경을 지원할 필요가 있다.
Approach: Transformer 디코더를 기반으로 하되 멀티모달 입력(텍스트, 이미지, 오디오, 비디오)을 처리하도록 설계하고, 32k 컨텍스트 길이를 지원하며, 대규모 TPU 인프라를 활용하여 세 가지 크기(Ultra, Pro, Nano)의 모델을 동시에 개발한다.

Achievement

Gemini 모델이 학생의 물리 문제 풀이를 검증하는 예시로, 필기 인식, 문제 이해, LaTeX 생성 능력을 보여준다.

벤치마크 성능 우위: Gemini Ultra가 평가된 32개 벤치마크 중 30개에서 최첨단 성능 달성
- MMLU에서 처음으로 인간 전문가 수준 성능(90% 이상) 달성
- MMMU 벤치마크에서 62.4% 기록 (이전 최고 기록 대비 5% 이상 개선)
- 이미지 이해 9/9, 비디오 이해 6/6, 음성 인식 및 번역 5/5 벤치마크에서 최첨단 달성
크로스모달 추론 능력: 텍스트, 이미지, 오디오를 네이티브하게 처리하면서 복잡한 추론 수행
- 필기 인식 + 물리 문제 이해 + LaTeX 생성의 통합 능력 시연
- AlphaCode 2와 통합하여 경쟁 프로그래밍 플랫폼 Codeforces 상위 15% 달성 (이전 상위 50% 대비 개선)
효율적인 모델 계열: 온디바이스 배포용 Nano 모델(1.8B~3.25B 파라미터)도 크기 대비 뛰어난 성능 제공

How

다양한 모달리티의 입력이 인터리빙된 형태로 처리되는 구조

아키텍처: Transformer 디코더 기반으로 멀티쿼리 어텐션(multi-query attention) 등 효율성 개선 기법 적용
멀티모달 인코딩:
- 이미지: Flamingo, CoCa, PaLI 기반의 비주얼 인코더 사용
- 오디오: Universal Speech Model (USM) 16kHz 기능으로 직접 수집, 텍스트 변환 시 손실되는 뉘앙스 포착
- 비디오: 프레임 시퀀스로 인코딩하여 32k 컨텍스트 창 활용
- 가변 입력 해상도 지원으로 세밀한 이해가 필요한 작업에 더 많은 계산 할당
대규모 훈련 인프라:
- TPUv5e 및 TPUv4 활용, SuperPods (4096칩) 활용
- JAX와 Pathways를 통한 단일 컨트롤러 프로그래밍 모델로 훈련 간소화
- GSPMD 파티셔너와 MegaScale XLA 컴파일러로 최적화
- 메모리 내 중복 복제를 통한 빠른 복구로 97%의 goodput 달성 (PaLM-2 대비 85% → 97% 개선)
안정성: 결정적 재생(deterministic replay)과 사전 정적 SDC 스캐너로 Silent Data Corruption 감지 및 제거
포스트훈련:
- Gemini Apps (대화형 AI Gemini 및 Gemini Advanced용)
- Gemini API (Google AI Studio 및 Cloud Vertex AI용)
- 두 가지 변형으로 서로 다른 사용 사례에 최적화

Originality

진정한 멀티모달 아키텍처: 텍스트, 이미지, 오디오, 비디오를 처음부터 하나의 모델로 처리하는 네이티브 멀티모달 설계 (기존 모델들은 후속 추가 또는 텍스트 변환 기반)
대규모 훈련 혁신: 97% goodput 달성을 위한 메모리 내 중복 복제 전략과 Silent Data Corruption 대응 기법
모델 크기 계열화: Ultra(복잡한 추론), Pro(확장성), Nano(온디바이스) 등 다양한 배포 요구에 부응하는 체계적인 계열 구성
이산 이미지 토큰 기반 출력: 멀티모달 입력뿐만 아니라 이미지 출력도 가능한 구조

Limitation & Further Study

컨텍스트 길이 제한: 32k 토큰 컨텍스트 길이는 매우 긴 멀티모달 시퀀스에서는 여전히 제약이 될 수 있음
계산 비용: Ultra 모델은 TPUv4 대규모 클러스터 필요로 하여 접근성 제한
평가 범위: 보고된 벤치마크가 주로 영문 기반이며, 다양한 언어와 문화권에서의 성능 검증 필요
안전성 및 편향: 논문에서 responsible deployment를 언급하나, 구체적인 안전성 평가 결과와 편향 분석이 제한적으로 제시됨
후속 연구 방향:
- 더 긴 컨텍스트 처리 능력 확장
- 다언어 성능 향상
- 멀티모달 편향 분석 및 완화
- 온디바이스 모델의 추가 최적화

Evaluation

총평: Gemini는 텍스트, 이미지, 오디오, 비디오를 통합적으로 처리하는 진정한 멀티모달 모델로서, MMLU 인간 전문가 수준 달성 및 30/32 벤치마크 최첨단 성능 기록을 통해 멀티모달 AI의 새로운 기준을 제시하며, 대규모 훈련 인프라 혁신(97% goodput)은 향후 초대형 모델 개발의 모범 사례가 될 것으로 기대된다.