저자: OpenAI | 날짜: 2023 | DOI: N/A
GPT-4는 이미지와 텍스트를 입력받아 텍스트를 출력하는 멀티모달 대규모 언어 모델로, 법학시험(Bar Exam) 상위 10% 수준의 성능을 달성하며 인간 수준의 전문가 및 학업 벤치마크 성능을 보여준다. 특히 훈련 규모 확장 시 성능 변화를 정확히 예측할 수 있는 인프라 구축을 핵심으로 한다.
그림 1: GPT-4 및 소규모 모델의 성능. 내부 코드베이스 데이터셋에서의 최종 손실값(bits per word). 소규모 모델로부터의 전력 법칙 적합이 GPT-4의 최종 손실을 정확히 예측.
그림 2: HumanEval 부분집합에서의 평균 로그 통과율. 전력 법칙 적합이 GPT-4 성능을 매우 정확히 예측.
GPT-4는 Transformer 기반 멀티모달 모델로서 인간 수준의 시험 성적 달성, 정확한 확장 예측 능력, 다언어 우수성을 통해 대규모 언어 모델 개발의 새로운 경지를 보여준다. 특히 소규모 모델로부터 거대 모델 성능을 사전 예측할 수 있다는 발견은 과학적 이해도와 배포 안전성을 동시에 향상시키는 기여이다. 다만 아키텍처 및 훈련 세부사항 미공개, 환각·신뢰성 부족, 제한된 문맥 길이 등 한계가 존재하며, 독립적 검증과 추가 투명성이 필요하다.