Sequence modeling and design from molecular to genome scale with Evo

저자: Eric Nguyen, Michael Poli, Matthew G. Durrant, Armin W. Thomas, Brian Kang 외 | 날짜: 2024 | DOI: 10.1101/2024.02.27.582234


Essence

Evo는 131 kilobase의 매우 긴 문맥길이(context length)를 가진 70억 파라미터의 게놈 기초 모델(genomic foundation model)로, 단일 뉴클레오타이드 해상도에서 DNA 서열을 예측하고 생성할 수 있다. StripedHyena 아키텍처를 기반으로 270만 개의 원핵생물 및 박테리오파지 게놈으로 학습하여 분자 규모에서 게놈 규모까지 다양한 생물학적 예측 및 생성 작업을 수행한다.

Motivation

Achievement

Figure 1 개념도

Figure 1: 원핵생물 게놈에서 게놈 기초 모델 사전학습. StripedHyena 아키텍처를 사용한 7B 파라미터 Evo 모델의 학습 구성.

  1. 영점학습 기능 예측(Zero-shot Function Prediction):
    • E. coli 단백질의 돌연변이 적응도(fitness) 예측에서 최첨단 단백질 언어 모델과 비교 가능 또는 초과 성능
    • 비코딩 RNA 돌연변이 적응도 예측에서 특화된 RNA 언어 모델 능가
    • 조절 서열만으로 프로모터-리보솜결합부위(RBS) 쌍의 유전자 발현 활성화 조합 예측
  2. 다중 요소 생성 작업(Multi-element Generation):
    • 코딩 및 비코딩 서열의 공진화 연쇄(co-evolutionary linkage) 학습을 통해 합성 CRISPR-Cas 분자 복합체 생성 (최초)
    • 전체 전이가능 원소 시스템 생성 (최초)
  3. 전체 게놈 규모 작업:
    • 감독 없이 세균 및 박테리오파지의 필수 유전자 예측 (뉴클레오타이드 해상도)
    • 650 kb 길이의 기능적 게놈 구조를 가진 코딩 서열 생성 (기존 방법보다 수십 배 이상 길음)

How

Figure 2 성능 평가

Figure 2: 단백질, 비코딩 RNA, 조절 영역에 대한 영점학습 기능 예측 성능.

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5

총평: Evo는 게놈 수준의 장문맥 시퀀스 모델링과 생성에서 획기적인 진전을 이루었으며, DNA 스케일링 법칙 제시와 다중 분자 복합체 생성 능력은 합성생물학 분야에 새로운 가능성을 열었다. 다만 생성된 서열의 실생물 검증과 더 광범위한 생물체로의 확장이 필요하다.

같이 보면 좋은 논문

기반 연구
초기 Evo 모델이 더 긴 컨텍스트와 향상된 성능을 가진 Evo 2의 직접적인 기반이 됩니다.
기반 연구
분자에서 게놈 규모의 서열 모델링과 설계 연구가 Seq2Exp의 DNA 서열 분석 방법론 기반을 제공한다.
다른 접근
게놈 서열과 분자 구조라는 서로 다른 생물학적 단위에 대한 언어 모델링 접근법을 제시합니다.
후속 연구
동일한 Evo 모델의 개선된 버전으로 더 긴 컨텍스트와 향상된 성능을 제공하는 직접적인 발전입니다.
응용 사례
게놈 규모 시퀀스 모델링 기술을 DNA 서열의 제어 가능한 설계에 직접 적용합니다.
← 목록으로 돌아가기