저자: Haiyan Zhao, Fan Yang, Bo Shen, Himabindu Lakkaraju, Mengnan Du | 날짜: 2024 | DOI: arXiv:2402.10688
대규모 언어모델의 작동 메커니즘: (a) 모델 컴포넌트 내 지식의 아키텍처 구성, (b) 중간 표현에 인코딩된 지식, (c) 훈련 과정에서의 일반화 능력 발달
이 논문은 설명가능성(explainability) 관점에서 대규모 언어모델(LLM)의 내부 작동 메커니즘을 체계적으로 검토한 종합 리뷰 논문이다. 기계적 해석가능성(mechanistic interpretability), 표현 공학(representation engineering), 훈련 역학 분석을 통해 LLM의 지식 구성, 부호화, 학습 과정을 밝히고, 이러한 인사이트가 모델 편집, 프루닝, 인간 정렬에 어떻게 활용될 수 있는지 보여준다.
트랜스포머 회로(Transformer Circuit)의 구조: Query-Key 회로와 Output-Value 회로를 통한 정보 처리 메커니즘
총평: 이 논문은 LLM의 내부 작동 메커니즘을 설명가능성 관점에서 체계적으로 정리한 우수한 리뷰 논문으로, 신경원·회로·헤드·훈련 역학의 계층적 분석을 통해 LLM의 투명성을 높인다. 다만 장난감 모델 기반 결과의 현실적 적용 가능성과 대규모 모델으로의 확장성은 여전히 과제로 남아 있다.