AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model

저자: Žiga Avsec, Natasha Latysheva, Jun Cheng, Guido Novati, Kyle R. Taylor | 날짜: 2025 | DOI: 10.1101/2025.06.25.661532


Essence

Figure 1

Figure 1: AlphaGenome 모델 아키텍처, 학습 방식 및 종합 평가 성능. (a) 모델 개요: 1 Mb DNA 서열을 입력받아 11개 모달리티에서 5,930개의 게놈 트랙을 단일 염기쌍 해상도로 예측. (e) 변이 효과 예측에서 기존 모델 대비 상대적 성능 개선

AlphaGenome은 1 메가베이스(Mb) DNA 서열 입력과 단일 염기쌍(bp) 해상도를 통합하여, 11개의 생물학적 모달리티(유전자 발현, 스플라이싱, 크로마틴 접근성, 조직인자 결합, 3D 크로마틴 구조 등)에 걸쳐 5,930개의 게놈 트랙을 동시에 예측하는 통합 딥러닝 모델이다.

Motivation

Achievement

Figure 2

Figure 2: AlphaGenome 트랙 예측 예시 및 상세 성능 평가. 관찰된 데이터와 AlphaGenome 예측의 높은 일치도 시연

  1. 게놈 트랙 예측 성능: 26개의 게놈 트랙 예측 과제 중 22개에서 기존 최강 모델을 능가 (Pearson r 기준 다양한 모달리티 분석)
  2. 변이 효과 예측 성능: 26개의 변이 효과 예측 벤치마크 중 24개에서 우수한 성능 달성
    • 스플라이싱: 15.0% (DeltaSplice 대비), 59.1% (ClinVar splice site region)
    • 유전자 발현: 13.7% (eQTL supervised, Borzoi 대비)
    • 크로마틴 접근성: 8.0-18.0% (bQTL, ds/caQTL)
  3. 다중 모달리티 해석: TAL1 종양원유전자 인근의 임상적으로 관련된 변이들의 메커니즘을 모든 모달리티에서 동시에 정확히 설명

How

Figure 3

Figure 3: AlphaGenome은 최첨단 스플라이싱 변이 효과 예측 모델. (a) 스플라이싱 예측 유형의 종합적 비교 및 성능 메트릭

Originality

Limitation & Further Study

Evaluation

총평: AlphaGenome은 기존의 구조적 트레이드오프를 극복하고 11개 모달리티를 통합하는 강력한 unified model로서, 비코딩 변이의 분자적 효과 해석을 위한 중요한 진전을 제시한다. 광범위한 벤치마킹과 공개 도구 제공으로 실용적 임팩트가 높으나, 컨텍스트 길이 한계와 일부 modality의 해상도 제약이 향후 개선 과제이다.

같이 보면 좋은 논문

다른 접근
둘 다 DNA 서열에서 유전자 발현 예측을 다루지만 AlphaGenome은 통합 딥러닝, Seq2Exp는 정보 병목 원리를 사용한다.
다른 접근
둘 다 DNA 서열에서 유전자 발현 예측을 다루지만 정보 병목 원리와 통합 딥러닝이라는 다른 접근법을 사용한다.
후속 연구
단일세포 분석을 위한 대규모 언어모델 확장 기술이 AlphaGenome의 멀티모달 게놈 예측을 더욱 발전시킬 수 있다.
응용 사례
1Mb DNA 서열 처리 능력을 인간 수준의 제약 조건 하에서 역합성 계획에 응용할 수 있다.
← 목록으로 돌아가기