Training socially aligned language models in simulated human society

저자: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi | 날짜: 2023 | DOI: arXiv:2305.16960


Essence

Figure 1

기존의 RLHF와 달리 Stable Alignment은 시뮬레이션된 사회적 상호작용을 통해 직접 언어모델을 정렬한다

본 논문은 시뮬레이션된 사회적 상호작용을 통해 언어모델을 사회적으로 정렬(socially aligned)시키는 새로운 학습 패러다임을 제시한다. 기존 감독 학습이나 보상 모델링의 한계를 극복하기 위해 다중 에이전트 시뮬레이션 환경(SANDBOX)에서 생성된 상호작용 데이터를 활용하여 보다 견고하고 확장 가능한 정렬 방법을 제안한다.

Motivation

Achievement

Figure 3

다양한 언어모델에서의 정렬 분석: 모델 규모가 반드시 정렬 성능을 크게 향상시키지는 않음

Figure 2

Back-Scatter를 통한 상호작용 데이터 생성 및 3가지 정렬 데이터 타입(모방, 자기비판, 재정렬) 구성

  1. 벤치마크 성능 우월성: 6개의 정렬 벤치마크에서 기존 방법을 능가하며, 적대적 공격(jailbreaking)에 대한 견고성이 현저히 향상됨
  2. 확장성 및 효율성 개선: 추가 보상 모델이 필요 없어 자원 제약 환경에 쉽게 배포 가능하며, 기존 SFT 대비 인간 라벨링 비용 감소
  3. 모델 규모의 한계 극복: 175B GPT-3 모델로의 20배 확대에도 불구하고 정렬 성능 향상이 미미하여, 소규모 모델도 충분한 정렬 성능 달성 가능함을 시사
  4. 생성 데이터의 질: 169k개의 상호작용 데이터에서 수집된 비교 쌍(comparative pairs), 집단 평가(collective ratings), 상세 피드백, 반복 수정 응답을 포함한 고품질 데이터 구성

How

Figure 2

SANDBOX의 Back-Scatter 메커니즘: 중앙 에이전트가 초기 응답을 생성한 후, 주변 에이전트들의 평가와 피드백을 받아 반복적으로 개선

SANDBOX 시뮬레이션:

Back-Scatter 메커니즘:

Stable Alignment 3단계 학습:

  1. 모방(Imitation) 단계: 정렬된 응답 데모 학습을 통한 기본 정렬 능력 습득
  2. 자기비판(Self-Critic) 단계: 상세한 피드백 학습을 통해 부정적 응답 판별 능력 개발
  3. 재정렬(Realignment) 단계: 반복 수정된 응답 학습을 통한 최종 개선

파레토 최적성 기준: 정렬(alignment)과 참여도(engagement) 평가의 곱이 더 이상 증가하지 않을 때 시뮬레이션 종료

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

총평: 본 논문은 기존의 감독 학습과 보상 모델링의 한계를 극복하기 위해 시뮬레이션된 사회적 상호작용을 활용하는 혁신적이고 실용적인 접근을 제시하며, 벤치마크와 적대적 공격에 대한 견고성에서 우수한 성능을 보여준다. 다만 시뮬레이션-현실 간극, 명시적 규칙 정의, 다문화적 일반화 측면에서 개선의 여지가 있다.

같이 보면 좋은 논문

기반 연구
사회적 정렬 언어 모델 훈련의 기본 원리를 다중 에이전트 환경에서 동적 사회 구조와 함께 적용할 수 있는 이론적 토대를 제공합니다.
다른 접근
LLM 인구의 문화진화와 사회적 정렬이 서로 다른 관점에서 AI 시스템의 사회적 학습을 탐구한다.
다른 접근
LLM 인구의 문화진화와 사회적 정렬이 서로 다른 관점에서 AI 시스템의 사회적 학습을 탐구한다.
후속 연구
개인에서 사회로의 시뮬레이션 서베이가 사회적 정렬을 위한 시뮬레이션 환경의 이론적 확장을 제공한다.
후속 연구
사회적 정렬을 위한 시뮬레이션 환경이 개인-사회 시뮬레이션 체계의 사회적 학습 측면을 확장한다.
후속 연구
시뮬레이션된 인간 사회에서 언어모델을 훈련시키는 접근법이 편향 완화의 근본적 해결책을 제시한다
응용 사례
상담사-내담자 심리학적 상호작용 시뮬레이션이 사회적 정렬 학습의 실제 적용 사례를 제공한다.
← 목록으로 돌아가기