저자: Wenbo Pan, Zhichao Liu, Qiguang Chen, Xiangyang Zhou, Haining Yu, Xiaohua Jia | 날짜: 2025 | DOI: N/A
안전 잔차 공간(Safety Residual Space) 개념도. 안전 미세조정(safety fine-tuning) 중 표현 변화의 선형 결합으로 정의되며, 지배적 방향과 비지배적 방향의 상호작용을 보여줌
대규모언어모델(LLM)의 안전 정렬 행동은 단일 선형 방향이 아닌 활성화 공간의 다차원 직교 방향들의 상호작용으로 제어된다. 본 연구는 안전 미세조정 과정에서 발생하는 표현 변화를 분석하여 거부 행동을 지배하는 주도적 방향과 가설적 내러티브, 역할극 같은 서로 다른 특징을 나타내는 부차적 방향들을 발견한다.
계층별 잔차 공간의 유효 순위(Effective Rank). SSFT와 DPO 모두에서 일관된 패턴을 보이며, 안전 특징이 다차원으로 분포함을 시사
계층별 모델 출력 예측 정확도. 지배적 방향이 안전 행동 예측에 미치는 영향을 보여줌
방법론적 기여:
총평: 본 논문은 LLM 안전 정렬에 대한 다차원적 해석을 제공하는 창의적이고 실질적인 연구이다. 안전 잔차 공간의 개념과 직교 방향 분석을 통해 기존 단일 방향 프로브의 한계를 극복하고, 부차적 특징의 역할을 밝힘으로써 안전 메커니즘의 이해를 심화시켰다. 특히 트리거 토큰 분석을 통한 취약성 발견은 향후 안전 방어 강화에 중요한 통찰을 제공한다. 그러나 선형성 가정, 단일 모델 평가, 제한된 데이터셋 규모 등의 한계는 논문의 영향력과 일반화 가능성을 다소 제약한다. 기계적 해석 가능성(mechanistic interpretability) 분야에서 의미 있는 기여이나, 실무적 안전 강화로의 연결은 추가 연구를 요한다.