GPT-4o System Card

저자: OpenAI Aaron Hurst, Adam Lerer, Adam P. Goucher, Adam Perelman, Aditya Ramesh | 날짜: 2024 | DOI: [해당 없음]


Essence

GPT-4o는 텍스트, 오디오, 이미지, 비디오를 입력으로 받아 텍스트, 오디오, 이미지를 출력할 수 있는 엔드-투-엔드 멀티모달 모델이며, 특히 음성-음성(speech-to-speech) 대화 능력에서 인간 수준의 응답 속도(232-320ms)를 달성했다. 본 System Card는 GPT-4o의 안전성 평가, 위험 식별, 완화 조치를 종합적으로 문서화한 투명성 보고서이다.

Motivation

Achievement

Figure 1: Quantum physics experiment red teamer example

양자물리학 실험 관련 적색팀 테스트 사례

Figure 2: Multi-panel figure interpretation red teamer example

다중 패널 이미지 해석 적색팀 테스트 사례

  1. 포괄적 외부 적색팀 운영: 4단계(3월~6월)에 걸쳐 초기 개발 단계부터 최종 iOS 앱 실제 사용 환경까지 100명 이상의 다국어 전문가(인지과학, 사이버보안, 편향성, 아동안전, 법률 등 28개 도메인)와 협력하여 2,600+ 위험 카테고리 식별
  2. 음성 모달리티 특화 위험 식별 및 완화: (1) 무단 음성 생성 - 사전 선택된 음성만 사용 + 출력 분류기, (2) 화자 식별 - 거부 교육, (3) 저작권 콘텐츠 - 음성 특화 필터, (4) 근거 없는 추론 - 민감한 특성 속성 시 완화된 응답 제공
  3. 평가 방법론 혁신: 기존 텍스트 기반 평가 데이터셋을 Voice Engine을 통해 오디오로 변환하여 재사용, 지역 방언에 따른 견고성 평가 포함
  4. 안전 완화의 다층 방어: 학습 데이터 필터링(CSAM, 혐오 콘텐츠, CBRN 제거), 후학습 정렬(post-training alignment), 출력 분류기, 정책 수준 감시(monitoring) 및 집행을 통한 포괄적 접근

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

총평: 본 System Card는 멀티모달 음성 생성 모델의 고유한 위험을 체계적으로 식별하고 다층 방어 전략으로 완화하는 실질적 사례를 제시함으로써, 거대언어모델의 투명성과 책임성 보고 기준을 정립하는 데 중요한 기여를 했다. 다만 TTS 기반 평가의 방법론적 한계와 실제 사용 환경의 음성 다양성 사이의 간극 해결이 향후 과제로 남아있다.

← 목록으로 돌아가기