저자: Leonard Bereska, Efstratios Gavves | 날짜: 2024 | DOI: 해당 정보 없음
해석가능성 패러다임: 행동적(Behavioral), 귀속적(Attributional), 개념기반(Concept-based), 기계론적(Mechanistic) 접근의 비교
본 논문은 신경망의 내부 작동 메커니즘을 인간이 이해할 수 있는 알고리즘으로 역공학(reverse engineering)하는 기계론적 해석가능성(mechanistic interpretability)의 종합적 리뷰를 제공한다. AI 안전성 확보를 위해 신경망의 세밀한 인과관계 이해가 필수적임을 강조한다.
기계론적 해석가능성의 핵심 개념: 특징 정의(defining features), 표현(representation), 계산(computation), 창발성(emergence)
특권적 기저(privileged basis)와 비특권적 기저(non-privileged basis): 모노시맨틱 vs. 폴리시맨틱 뉴런의 대조
총평: 본 논문은 기계론적 해석가능성을 처음으로 포괄적으로 정리한 가치 있는 리뷰이며, AI 안전성과의 강한 연계를 통해 분야의 중요성을 부각하였으나, 개념의 형식적 정의 강화와 더 급진적인 후속 방향 제시가 있다면 더욱 임팩트 있는 기여가 될 수 있을 것으로 판단된다.