Effective gene expression prediction from sequence by integrating long-range interactions

저자: Žiga Avsec, Vikram Agarwal, D. Visentin, J. Ledsam, A. Grabska-Barwinska | 날짜: 2021 | DOI: 10.1038/s41592-021-01252-x


Essence

DNA 서열로부터 유전자 발현을 예측하는 문제에서 Transformer 기반 자기주목(self-attention) 메커니즘을 통해 100 kb까지의 장거리 규제 요소를 통합함으로써 예측 정확도를 획기적으로 향상시킨 연구이다.

Motivation

Achievement

Figure 1: Enformer improves gene expression prediction in held-out genes by using a larger receptive field

그림 1: Enformer는 200 kb 입력 서열에서 128 bp 해상도로 게놈 트랙을 예측하며, Transformer 모듈을 통해 Basenji2 대비 5배 큰 수용장(100 kb vs 20 kb)을 달성

  1. 예측 정확도 획기적 향상: CAGE(Cap Analysis Gene Expression)를 통한 RNA 발현 예측에서 평균 상관계수가 0.81에서 0.85로 증가 (Basenji1→Basenji2 개선의 2배 규모, 실험 수준 정확도 0.94와의 격차 1/3 해소)
  2. 장거리 규제 요소 통합: 수용장을 20 kb에서 100 kb로 확대함으로써 고신뢰도 인핸서-유전자 쌍의 포함 비율을 47%에서 84%로 증가
  3. 세포 유형 특이성 향상: 조직 또는 세포 유형 특이성 예측이 개선되었으며, 밀접하게 관련된 샘플들에서도 우수한 성능 발휘
Figure 2: Enformer attends to cell-type-specific enhancers, enabling enhancer prioritization

그림 2: Enformer의 기여도 점수가 세포 유형 특이적 인핸서를 식별하며, ABC 점수와 필적하는 인핸서 우선순위화 성능 달성

  1. 인핸서 우선순위화: DNA 서열만을 입력으로 하면서도 실험 데이터(HiC, H3K27ac)를 사용하는 ABC 점수와 동등하거나 더 우수한 성능으로 인핸서-유전자 상호작용 예측
  2. 절연체 요소 학습: 위상 연관 영역(TAD) 경계에 대한 주목이 임의의 위치보다 높고, 경계 반대편 영역에 대한 주목이 낮은 패턴으로 절연체 기능 학습 확인

How

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 Transformer의 자기주목 메커니즘을 통해 DNA 서열로부터의 유전자 발현 예측이라는 오랜 문제를 실질적으로 해결하며, 다양한 생물학적 검증을 통해 모델의 생물학적 타당성까지 입증한 매우 높은 수준의 연구이다. 특히 장거리 규제 상호작용 통합이라는 생물학적 직관을 기술적으로 구현하고, 인간 유전학의 여러 응용 분야에서 즉각적인 임상 가능성을 제시한 점에서 높이 평가된다.

같이 보면 좋은 논문

기반 연구
장거리 서열 분석 기술이 단일세포 분석을 위한 대규모 언어모델의 기초 기술이다
다른 접근
단백질 수준 멀티모달 분석과 DNA 서열 기반 발현 예측이라는 서로 다른 분자 수준 접근법이다
다른 접근
DNA 서열에서 유전자 발현 예측과 아미노산 서열에서 단백질 구조 예측이라는 상호보완적 접근법이다
다른 접근
DNA 서열에서 유전자 발현을 예측하는 Transformer 접근법으로 단백질 폴딩과 다른 구조-기능 관계를 다룬다
후속 연구
양자역학적 대칭성 개념을 생물학적 서열 분석의 장거리 상호작용 모델링에 적용한다
후속 연구
DNA 서열 기반 유전자 발현 예측을 단일세포 수준의 포괄적 분석으로 확장한다
응용 사례
Transformer의 자기주목 메커니즘을 양자역학적 장거리 상호작용 모델링에 적용한다
← 목록으로 돌아가기