저자: Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi | 날짜: 2023 | DOI: arXiv:2305.16960
기존의 RLHF와 달리 Stable Alignment은 시뮬레이션된 사회적 상호작용을 통해 직접 언어모델을 정렬한다
본 논문은 시뮬레이션된 사회적 상호작용을 통해 언어모델을 사회적으로 정렬(socially aligned)시키는 새로운 학습 패러다임을 제시한다. 기존 감독 학습이나 보상 모델링의 한계를 극복하기 위해 다중 에이전트 시뮬레이션 환경(SANDBOX)에서 생성된 상호작용 데이터를 활용하여 보다 견고하고 확장 가능한 정렬 방법을 제안한다.
다양한 언어모델에서의 정렬 분석: 모델 규모가 반드시 정렬 성능을 크게 향상시키지는 않음
Back-Scatter를 통한 상호작용 데이터 생성 및 3가지 정렬 데이터 타입(모방, 자기비판, 재정렬) 구성
SANDBOX의 Back-Scatter 메커니즘: 중앙 에이전트가 초기 응답을 생성한 후, 주변 에이전트들의 평가와 피드백을 받아 반복적으로 개선
SANDBOX 시뮬레이션:
Back-Scatter 메커니즘:
Stable Alignment 3단계 학습:
파레토 최적성 기준: 정렬(alignment)과 참여도(engagement) 평가의 곱이 더 이상 증가하지 않을 때 시뮬레이션 종료
총평: 본 논문은 기존의 감독 학습과 보상 모델링의 한계를 극복하기 위해 시뮬레이션된 사회적 상호작용을 활용하는 혁신적이고 실용적인 접근을 제시하며, 벤치마크와 적대적 공격에 대한 견고성에서 우수한 성능을 보여준다. 다만 시뮬레이션-현실 간극, 명시적 규칙 정의, 다문화적 일반화 측면에서 개선의 여지가 있다.