저자: Xiner Li, Limei Wang, Youzhi Luo, Carl N. Edwards, Shurui Gui | 날짜: 2024 | DOI: 10.48550/arXiv.2408.10120
Geo2Seq 개요: 정규 표준화 라벨링 순서로 노드를 배열하고 각 노드에 원자 종류와 구면 좌표를 벡터 형태로 채워 수열로 변환
본 논문은 3D 분자 구조를 SE(3)-불변(invariant) 1D 이산 수열로 변환하는 Geo2Seq 토큰화 방법을 제안하여, 언어 모델(LM)이 3D 분자 생성 태스크를 효과적으로 수행할 수 있도록 한다. 기존의 확산 모델 기반 방법론보다 빠르면서도 더 나은 조건부 생성 성능을 달성한다.
편극율(Polarizability α) 조건으로 생성된 분자의 시각화
QM9 데이터셋에서 Geo2Seq + Mamba로 생성된 분자의 시각화
Geo2Seq의 핵심 단계: 정규 표준화 라벨링, 구면 좌표 표현, 토큰화, 수열 생성
[z_i, d_i, θ_i, φ_i]로 표현 (z_i: 원자번호, d_i: 거리, θ_i, φ_i: 각도)
총평: 본 논문은 언어 모델을 3D 분자 생성에 효과적으로 적용하기 위한 창의적인 토큰화 방법을 제안하며, SE(3)-불변성을 엄밀히 보장하면서도 조건부 생성에서 확산 모델을 초과하는 성능을 달성한다. 모델-불가지론적 설계로 확장성도 우수하나, 수치 정밀도와 계산 복잡도 측면의 실용적 제약에 대한 더 깊은 논의가 필요하다.