Gemini: a family of highly capable multimodal models

저자: Gemini Robotics Team, Rohan Anil, Sebastian Borgeaud, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M. Dai, Anja Hauth, Katie Millican, David M. Silver, Melvin Johnson, Ioannis Antonoglou, Julian Schrittwieser, Amelia Glaese, Jilin Chen, Emily Pitler, Timothy Lillicrap, Angeliki Lazaridou, Orhan Fırat | 날짜: 2023 | DOI: N/A


Essence

Figure 2

Gemini 모델은 텍스트, 이미지, 오디오, 비디오의 인터리빙된 시퀀스를 입력으로 받아 텍스트와 이미지가 섞인 응답을 생성할 수 있다.

Google이 개발한 Gemini는 이미지, 오디오, 비디오, 텍스트를 네이티브하게 처리하는 멀티모달 대규모 언어 모델 패밀리로, Ultra, Pro, Nano 세 가지 크기로 제공되며 30개의 32개 벤치마크 중에서 최첨단 성능을 달성한다.

Motivation

Achievement

Figure 1

Gemini 모델이 학생의 물리 문제 풀이를 검증하는 예시로, 필기 인식, 문제 이해, LaTeX 생성 능력을 보여준다.

  1. 벤치마크 성능 우위: Gemini Ultra가 평가된 32개 벤치마크 중 30개에서 최첨단 성능 달성
    • MMLU에서 처음으로 인간 전문가 수준 성능(90% 이상) 달성
    • MMMU 벤치마크에서 62.4% 기록 (이전 최고 기록 대비 5% 이상 개선)
    • 이미지 이해 9/9, 비디오 이해 6/6, 음성 인식 및 번역 5/5 벤치마크에서 최첨단 달성
  2. 크로스모달 추론 능력: 텍스트, 이미지, 오디오를 네이티브하게 처리하면서 복잡한 추론 수행
    • 필기 인식 + 물리 문제 이해 + LaTeX 생성의 통합 능력 시연
    • AlphaCode 2와 통합하여 경쟁 프로그래밍 플랫폼 Codeforces 상위 15% 달성 (이전 상위 50% 대비 개선)
  3. 효율적인 모델 계열: 온디바이스 배포용 Nano 모델(1.8B~3.25B 파라미터)도 크기 대비 뛰어난 성능 제공

How

Figure 2

다양한 모달리티의 입력이 인터리빙된 형태로 처리되는 구조

Originality

Limitation & Further Study

Evaluation

총평: Gemini는 텍스트, 이미지, 오디오, 비디오를 통합적으로 처리하는 진정한 멀티모달 모델로서, MMLU 인간 전문가 수준 달성 및 30/32 벤치마크 최첨단 성능 기록을 통해 멀티모달 AI의 새로운 기준을 제시하며, 대규모 훈련 인프라 혁신(97% goodput)은 향후 초대형 모델 개발의 모범 사례가 될 것으로 기대된다.

같이 보면 좋은 논문

다른 접근
Google Gemini와 OpenAI GPT-4의 멀티모달 기능과 성능을 직접 비교할 수 있는 경쟁 관계의 모델이다
다른 접근
같은 시기 발표된 경쟁 멀티모달 모델로 기술적 접근법과 성능을 비교 분석할 수 있다
후속 연구
멀티모달 AI 모델의 발전 과정에서 Gemini 이후의 기술적 진보를 확인할 수 있다
후속 연구
Gemini 모델 패밀리의 발전 과정에서 컨텍스트 확장과 성능 향상의 연속성을 이해할 수 있다
응용 사례
Gemini의 과학 그림 이해 능력을 체계적으로 평가하는 벤치마크로 실제 활용성을 검증할 수 있다
응용 사례
Gemini 패밀리의 멀티모달 능력을 과학적 이미지 생성이라는 구체적 과학 응용 영역에서 평가한 연구이다.
응용 사례
Gemini와 같은 멀티모달 모델의 과학 그림 해석 능력을 체계적으로 평가하는 전문 벤치마크이다
← 목록으로 돌아가기