Foundation models in bioinformatics

저자: Fei Guo, Renchu Guan, Yaohang Li, Qi Liu, Xiaowo Wang, Can Yang, Jianxin Wang | 날짜: 2025-03-07 | DOI: 10.1093/nsr/nwaf028


Essence

Figure 1

그림 1: 생물정보학의 기초 모델. 고처리량 데이터(DNA, RNA, 단백질, 분자)로부터 다양한 다운스트림 작업(게놈학, 전사체학, 단백질학, 약물 발견, 단일 세포 분석)을 수행하는 기초 모델의 종류 및 활용.

기초 모델(FM)이 생물정보학에 도입되면서 AI는 대규모 미표지 데이터 처리, 사전학습(pre-training) 프레임워크, 모델 평가 및 해석 가능성 등 역사적 과제들을 해결하고 있다. 본 논문은 언어 FM, 시각 FM, 그래프 FM, 다중모달 FM의 4가지 유형으로 분류된 기초 모델들이 게놈학, 전사체학, 단백질학, 약물 발견, 단일 세포 분석 등 다양한 생물정보학 응용에서 달성한 최근 성과를 종합적으로 검토한다.

Motivation

Achievement

Figure 2

그림 2: 생물정보학의 기초 모델 진화. 2020년부터 2024년까지 게놈학, 전사체학, 단백질학, 약물 발견, 단일 세포 분석 분야에서 개발된 주요 모델들의 시간적 진화 궤적.

  1. 구조화된 분류체계: 언어 FM(DNABERT, RNABERT, ProteinBERT, ChemBERTa 등), 시각 FM(Enformer, AlphaFold 등), 그래프 FM(GNN 기반 분자 표현 학습), 다중모달 FM(멀티 오믹스 통합) 등 4가지 유형별 20개 이상의 주요 모델을 체계적으로 분류
  2. 응용 영역 확대: 단순한 서열 분류에서 출발하여 (1세대), 광범위한 전이 학습이 가능한 사전학습 모델로 진화(2세대), 멀티태스크 학습으로 확장(3세대), 최근 다중모달 통합 분석으로 발전(4세대) - 단백질 구조 예측(AlphaFold → AlphaFold3)의 사례로 입증
  3. 생물학적 문제 해결의 다양화: 바이오마커 발견, 효소 설계, 항체-항원 인식, 약물 발견, 오믹스 분석, 질병 진단 등 폭넓은 생물학적 도전에 대한 FM 적용 성공 사례 제시

How

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 급속히 발전하는 생물정보학 기초 모델 분야를 종합적으로 정리한 중요한 리뷰로, 4가지 FM 유형과 5가지 응용분야의 이원 분류체계를 통해 실무자의 모델 선택을 돕는 실질적 가치가 있다. 다만 해석 가능성, 환각 문제, 벤치마크 표준화 같은 개방된 과제들에 대한 구체적 해결 방안이 추가되면 논문의 완성도가 더욱 높아질 것으로 예상된다.

같이 보면 좋은 논문

기반 연구
언어 모델 기반 분자 설계가 생물정보학 기초 모델 발전에 제공하는 구조-기능 관계 모델링 기반을 다룬다.
후속 연구
생물정보학 기초 모델의 활용이 신약 발굴의 다국어 멀티에이전트 시스템으로 확장된 형태를 보여준다.
응용 사례
멀티모달 기초 모델이 생물정보학의 다양한 데이터 유형 통합 분석에 활용되는 방법을 제시한다.
응용 사례
멀티모달 기초 모델이 생물정보학 분야의 다양한 데이터 유형 처리에 적용되는 사례를 보여준다.
응용 사례
생물정보학 기초 모델이 게노믹 데이터의 자율 ML 분석에 제공하는 기반 기술을 다룬다.
응용 사례
생물정보학 분야 기초 모델의 게노믹 및 트랜스크립토믹 데이터 분류 특화 적용을 보여준다.
응용 사례
과학 분야 LLM의 생물정보학 특화 적용과 기초 모델의 구체적 구현 방향을 보여준다.
응용 사례
과학 LLM의 생물정보학 분야 특화 적용 방향을 구체적으로 보여준다.
응용 사례
AI4Science의 구체적 적용 분야인 생물정보학에서 기초 모델의 활용 방안을 상세히 다룬다.
응용 사례
AI4Science의 구체적 응용 분야인 생물정보학에서 기초 모델 활용을 상세히 다룬다.
← 목록으로 돌아가기