저자: Fei Guo, Renchu Guan, Yaohang Li, Qi Liu, Xiaowo Wang, Can Yang, Jianxin Wang | 날짜: 2025-03-07 | DOI: 10.1093/nsr/nwaf028
그림 1: 생물정보학의 기초 모델. 고처리량 데이터(DNA, RNA, 단백질, 분자)로부터 다양한 다운스트림 작업(게놈학, 전사체학, 단백질학, 약물 발견, 단일 세포 분석)을 수행하는 기초 모델의 종류 및 활용.
기초 모델(FM)이 생물정보학에 도입되면서 AI는 대규모 미표지 데이터 처리, 사전학습(pre-training) 프레임워크, 모델 평가 및 해석 가능성 등 역사적 과제들을 해결하고 있다. 본 논문은 언어 FM, 시각 FM, 그래프 FM, 다중모달 FM의 4가지 유형으로 분류된 기초 모델들이 게놈학, 전사체학, 단백질학, 약물 발견, 단일 세포 분석 등 다양한 생물정보학 응용에서 달성한 최근 성과를 종합적으로 검토한다.
그림 2: 생물정보학의 기초 모델 진화. 2020년부터 2024년까지 게놈학, 전사체학, 단백질학, 약물 발견, 단일 세포 분석 분야에서 개발된 주요 모델들의 시간적 진화 궤적.
총평: 본 논문은 급속히 발전하는 생물정보학 기초 모델 분야를 종합적으로 정리한 중요한 리뷰로, 4가지 FM 유형과 5가지 응용분야의 이원 분류체계를 통해 실무자의 모델 선택을 돕는 실질적 가치가 있다. 다만 해석 가능성, 환각 문제, 벤치마크 표준화 같은 개방된 과제들에 대한 구체적 해결 방안이 추가되면 논문의 완성도가 더욱 높아질 것으로 예상된다.