Robust deep learning based protein sequence design using ProteinMPNN

저자: J. Dauparas, I. Anishchenko, N. Bennett, H. Bai, R. Ragotte | 날짜: 2022 | DOI: 10.1126/science.add2187


Essence

Figure 1

ProteinMPNN 아키텍처: 메시지 패싱 신경망(MPNN) 기반의 순서-비의존적 자가회귀 모델로, 다중 체인 및 대칭성을 고려한 위치 결합 설계 가능

깊은 신경망 기반 단백질 서열 설계 방법 ProteinMPNN을 개발하여, 기존의 물리 기반 방법(Rosetta)보다 우수한 성능을 보이며 다양한 단백질 설계 문제에 광범위하게 적용 가능함을 입증했다.

Motivation

Achievement

Figure 2

ProteinMPNN의 전산 평가: (A) Rosetta 대비 월등한 서열 복구율(52.4% vs 32.9%), (B) 모노머(52%), 호모머(55%), 헤테로머(51%) 중위 서열 복구율, (C) 백본 노이즈 추가 학습의 영향, (E) 단일 서열 AlphaFold 예측에서 ProteinMPNN 서열의 우수한 구조 부호화

  1. 높은 서열 복구율: 네이티브 단백질 백본에서 52.4% 서열 복구율로 Rosetta(32.9%)를 60% 이상 능가하며, 단백질 핵심에서 표면까지 모든 영역에서 일관되게 우수한 성능
  2. 광범위한 적용성:
    • 모노머, 호모올리머, 헤테로머에 일관되게 높은 성능(51-55% 중위 복구율)
    • 순서-비의존적 디코딩으로 부분 고정 설계 가능(예: 리간드 결합 영역 고정)
    • 대칭성 제약 및 멀티-상태 설계 지원으로 대칭 단백질, 반복 단백질 설계 가능
  3. 구조 견고성 향상: 백본 노이즈(std=0.02Å) 추가 학습으로 AlphaFold 예측 구조에서 서열 복구율 증대, ProteinMPNN 설계 서열이 단일 서열 AlphaFold 예측에서 원본 네이티브 서열보다 훨씬 정확하게 목표 구조 채택
  4. 계산 효율성: 100개 잔기당 1.2초(ProteinMPNN) vs 4.3분(Rosetta) - 약 200배 빠른 속도

How

Figure 1

ProteinMPNN 모델 아키텍처의 주요 개선 사항

아키텍처 개선:

순서-비의존적 자가회귀 모델:

다중 체인 및 대칭성 인식:

학습 설정:

Originality

Limitation & Further Study

한계:

후속 연구 방향:

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

총평: ProteinMPNN은 깊은 학습 기반 단백질 설계에서 기존 물리 기반 방법의 한계를 혁신적으로 극복한 작업으로, 순서-비의존적 자가회귀와 견고성 중심의 학습 철학이 핵심이며, 모노머부터 올리머, 나노입자까지 광범위한 실용적 적용 가능성을 갖춘 분야 선도적 연구다.

같이 보면 좋은 논문

기반 연구
ProteinMPNN의 강건한 단백질 서열 설계가 Boltz-1과 같은 구조 예측 모델의 정확성을 검증하고 보완하는 중요한 도구로 활용된다.
다른 접근
ProteinMPNN의 단백질 서열 설계와 VIDD의 생체분자 확산모델 미세조정은 단백질 설계 문제에 대한 서로 다른 생성 모델 접근법이다.
후속 연구
Boltz-1의 생체분자 복합체 구조 예측 능력이 ProteinMPNN의 단백질 서열 설계와 결합하여 구조-서열 공동 최적화를 가능하게 한다.
후속 연구
ProteinMPNN의 서열 설계 방법론을 CrCoNi 합금의 원자 배치 최적화에 적용하여 합금 설계의 새로운 패러다임을 제시할 수 있다.
← 목록으로 돌아가기