저자: OpenAI Aaron Hurst, Adam Lerer, Adam P. Goucher, Adam Perelman, Aditya Ramesh | 날짜: 2024 | DOI: [해당 없음]
GPT-4o는 텍스트, 오디오, 이미지, 비디오를 입력으로 받아 텍스트, 오디오, 이미지를 출력할 수 있는 엔드-투-엔드 멀티모달 모델이며, 특히 음성-음성(speech-to-speech) 대화 능력에서 인간 수준의 응답 속도(232-320ms)를 달성했다. 본 System Card는 GPT-4o의 안전성 평가, 위험 식별, 완화 조치를 종합적으로 문서화한 투명성 보고서이다.
양자물리학 실험 관련 적색팀 테스트 사례
다중 패널 이미지 해석 적색팀 테스트 사례
총평: 본 System Card는 멀티모달 음성 생성 모델의 고유한 위험을 체계적으로 식별하고 다층 방어 전략으로 완화하는 실질적 사례를 제시함으로써, 거대언어모델의 투명성과 책임성 보고 기준을 정립하는 데 중요한 기여를 했다. 다만 TTS 기반 평가의 방법론적 한계와 실제 사용 환경의 음성 다양성 사이의 간극 해결이 향후 과제로 남아있다.