Openai o1 system card

저자: OpenAI (Aaron Jaech, Adam Tauman Kalai, Adam Lerer 등) | 날짜: 2024 | DOI: -


Essence

Figure 1

Figure 1: GPT-4o, o1, o1-preview, o1-mini의 jailbreak 평가 성능 비교

OpenAI o1 모델은 대규모 강화학습(reinforcement learning)으로 훈련된 chain-of-thought 추론 능력을 갖춘 모델로, 기존 GPT-4o 대비 안전성과 강건성이 크게 향상되었으며 특히 jailbreak 공격에 대한 저항성이 획기적으로 개선되었다.

Motivation

Achievement

  1. Jailbreak 저항성 획기적 개선: StrongReject 벤치마크에서 GPT-4o 대비 o1이 상당히 우수한 성능 달성 (Figure 1 참조). Production jailbreaks, 인간 기반 jailbreaks 등 모든 jailbreak 평가에서 o1 모델 계열이 GPT-4o를 능가.
  2. 유해 콘텐츠 거부 강화: Challenging Refusal Evaluation에서 o1이 0.92-0.934의 not_unsafe 점수로 GPT-4o의 0.713 대비 29-31% 향상. WildChat에서도 0.98 달성으로 0.945 상회.
  3. 과도 거부(overrefusal) 개선: 멀티모달 입력에서 o1의 not_overrefuse 점수가 0.96으로 GPT-4o의 0.48에서 두 배 향상. 양성 요청에 대한 거부율 감소.
  4. 환각(hallucination) 감소: SimpleQA에서 o1의 환각율 0.44(GPT-4o 0.61), PersonQA에서 0.20(GPT-4o 0.30)으로 30-35% 감소. 정확도도 동시에 향상(SimpleQA accuracy: 0.47 vs 0.38).
  5. 편향성 개선: BBQ 평가에서 명확한 답변의 경우 o1이 93-94% 정확도로 GPT-4o의 72% 대비 22% 향상. 모호한 질문에서도 o1-preview 대비 o1이 개선된 성능 표시 (63% → 96%).

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

총평: 본 보고서는 대규모 언어모델의 안전성 평가에 있어 chain-of-thought 추론 능력이 defensive alignment의 새로운 차원을 제시함을 실증적으로 입증했으며, 다층적이고 체계적인 평가 프레임워크를 제시한 점에서 학계와 산업 모두에 중요한 기여를 한다. 다만 chain-of-thought 자체가 야기할 수 있는 deception 위험과 도메인 특화 평가의 부족은 향후 연구의 중요한 과제로 남아있다.

← 목록으로 돌아가기