GPT-4 Technical Report

저자: OpenAI | 날짜: 2023 | DOI: N/A


Essence

GPT-4는 이미지와 텍스트를 입력받아 텍스트를 출력하는 멀티모달 대규모 언어 모델로, 법학시험(Bar Exam) 상위 10% 수준의 성능을 달성하며 인간 수준의 전문가 및 학업 벤치마크 성능을 보여준다. 특히 훈련 규모 확장 시 성능 변화를 정확히 예측할 수 있는 인프라 구축을 핵심으로 한다.

Motivation

Achievement

Figure 1

그림 1: GPT-4 및 소규모 모델의 성능. 내부 코드베이스 데이터셋에서의 최종 손실값(bits per word). 소규모 모델로부터의 전력 법칙 적합이 GPT-4의 최종 손실을 정확히 예측.

Figure 2

그림 2: HumanEval 부분집합에서의 평균 로그 통과율. 전력 법칙 적합이 GPT-4 성능을 매우 정확히 예측.

  1. 확장 법칙의 정확한 예측: 손실값(loss) 예측에서 L(C) = aC^b + c 형태의 전력 법칙을 사용하여 GPT-4의 최종 손실을 높은 정확도로 사전 예측. 코딩 능력(HumanEval)도 −E_P[log(pass_rate(C))] = α·C^−k 관계로 1,000배 이상 작은 모델로부터 정확히 예측.
  2. 인간 수준의 시험 성적: 법학시험(Bar Exam) 상위 10%, LSAT 상위 12%, SAT 수학 상위 11%, GRE 언어 상위 1% 수준의 성능 달성. 기존 GPT-3.5는 법학시험에서 하위 10%였음.
  3. 다언어 우수성: MMLU 벤치마크 26개 언어 중 24개에서 영어 최고 성능(SOTA) 초과.
  4. 역확장 현상 해결: Inverse Scaling Prize의 Hindsight Neglect 과제에서 기존 모델은 규모가 클수록 성능 저하를 보였으나, GPT-4는 이 추세를 반전시킴.
  5. 멀티모달 능력: 이미지와 텍스트를 동시에 처리 가능하며, 비전 기능 제거 후에도 대부분의 시험에서 동일하거나 유사한 성능 유지.

How

Originality

Limitation & Further Study

Evaluation

총평

GPT-4는 Transformer 기반 멀티모달 모델로서 인간 수준의 시험 성적 달성, 정확한 확장 예측 능력, 다언어 우수성을 통해 대규모 언어 모델 개발의 새로운 경지를 보여준다. 특히 소규모 모델로부터 거대 모델 성능을 사전 예측할 수 있다는 발견은 과학적 이해도와 배포 안전성을 동시에 향상시키는 기여이다. 다만 아키텍처 및 훈련 세부사항 미공개, 환각·신뢰성 부족, 제한된 문맥 길이 등 한계가 존재하며, 독립적 검증과 추가 투명성이 필요하다.

같이 보면 좋은 논문

기반 연구
튜링 테스트를 통과한 GPT-4의 인간 수준 언어 능력이 이러한 성취의 기술적 기반이다
다른 접근
같은 시기 발표된 경쟁 멀티모달 모델로 기술적 접근법과 성능을 비교 분석할 수 있다
다른 접근
Google Gemini와 OpenAI GPT-4의 멀티모달 기능과 성능을 직접 비교할 수 있는 경쟁 관계의 모델이다
후속 연구
GPT-4의 인간 수준 성능이 실제 튜링 테스트 통과로 이어지는 AI 발전의 연속성을 보여준다
응용 사례
GPT-4의 과학 연구 자동화 가능성을 실제 AI 과학자 시스템으로 구현한 사례이다
반론/비판
오픈소스 DeepSeek-V3와 독점 GPT-4의 기술적 접근법과 성능 차이를 대조적으로 분석할 수 있다
← 목록으로 돌아가기