Learning to Discover Regulatory Elements for Gene Expression Prediction

저자: Xingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji | 날짜: 2025 | DOI: 10.48550/arXiv.2502.13991


Essence

Figure 1: Causal relationships between epigenomic signals, sequence, gene expression Y and related regulatory elements

그림 1: 에피지노믹 신호, DNA 서열, 유전자 발현 Y 및 관련 조절 요소 간의 인과관계

본 논문은 DNA 서열과 에피지노믹 신호로부터 유전자 발현을 예측하되, 능동적으로 상호작용하는 조절 요소(regulatory elements)를 자동으로 발견하는 Seq2Exp 프레임워크를 제안한다. 정보 병목(information bottleneck) 원리를 활용하여 인과적 조절 요소만을 추출함으로써 기존 방법들을 능가하는 성능을 달성한다.

Motivation

Achievement

Figure 2: Pipeline of proposed architectures. The input data contains the DNA sequence Xseq

그림 2: 제안된 아키텍처의 파이프라인

  1. 성능 우위: 유전자 발현 예측에서 기존 베이스라인들(Enformer, GraphReg, EPInformer)을 능가하는 SOTA 성능 달성
  2. 조절 요소 발견의 우수성: 추출된 조절 요소 영역이 MACS3 같은 통계적 피크 검출 방법보다 더 정확하고 생물학적으로 의미 있는 영역 식별
  3. 통합 프레임워크: DNA 서열과 에피지노믹 신호를 체계적으로 결합하여 표준화된 방식으로 영향력 있는 영역 발견

How

제안된 Seq2Exp 프레임워크는 다음과 같이 동작한다:

```

L = I(Z; Y) - β·I(X; Z)

```

  • 토큰 레벨 이진/소프트 mask:
  • 입력 처리:
  • Originality

    Limitation & Further Study

    Evaluation

    총평: 본 논문은 인과관계 기반의 명확한 문제 정의와 정보 병목 기법의 효과적인 응용으로 유전자 발현 예측에서 의미 있는 진전을 이루었으며, ICLR 2025 게재작으로서 생물정보학과 머신러닝의 교차점에서 실질적 기여를 하고 있다.

    같이 보면 좋은 논문

    기반 연구
    분자에서 게놈 규모의 서열 모델링과 설계 연구가 Seq2Exp의 DNA 서열 분석 방법론 기반을 제공한다.
    다른 접근
    둘 다 DNA 서열에서 유전자 발현 예측을 다루지만 정보 병목 원리와 통합 딥러닝이라는 다른 접근법을 사용한다.
    다른 접근
    둘 다 DNA 서열에서 유전자 발현 예측을 다루지만 AlphaGenome은 통합 딥러닝, Seq2Exp는 정보 병목 원리를 사용한다.
    후속 연구
    유전자 발현 예측에서 조절 요소 발견을 LLM 기반 인과적 유전자 조절 네트워크 발견으로 확장했다.
    ← 목록으로 돌아가기