저자: Eric Nguyen, Michael Poli, Matthew G. Durrant, Armin W. Thomas, Brian Kang 외 | 날짜: 2024 | DOI: 10.1101/2024.02.27.582234
Evo는 131 kilobase의 매우 긴 문맥길이(context length)를 가진 70억 파라미터의 게놈 기초 모델(genomic foundation model)로, 단일 뉴클레오타이드 해상도에서 DNA 서열을 예측하고 생성할 수 있다. StripedHyena 아키텍처를 기반으로 270만 개의 원핵생물 및 박테리오파지 게놈으로 학습하여 분자 규모에서 게놈 규모까지 다양한 생물학적 예측 및 생성 작업을 수행한다.
Figure 1: 원핵생물 게놈에서 게놈 기초 모델 사전학습. StripedHyena 아키텍처를 사용한 7B 파라미터 Evo 모델의 학습 구성.
Figure 2: 단백질, 비코딩 RNA, 조절 영역에 대한 영점학습 기능 예측 성능.
총평: Evo는 게놈 수준의 장문맥 시퀀스 모델링과 생성에서 획기적인 진전을 이루었으며, DNA 스케일링 법칙 제시와 다중 분자 복합체 생성 능력은 합성생물학 분야에 새로운 가능성을 열었다. 다만 생성된 서열의 실생물 검증과 더 광범위한 생물체로의 확장이 필요하다.