저자: Qiang Zhang, Keyang Ding, Tianwen Lyv, Xinda Wang, Qingyu Yin, Yiwen Zhang, Jing Yu, Yuhao Wang, Xiaotong Li, Zhuoyi Xiang, Kehua Feng, Xiang Zhuang, Zeyuan Wang, Ming Qin, Mengyao Zhang, Jinlu Zhang, Jiyu Cui, Tao Huang, Pengju Yan, Renjun Xu | 날짜: 2024-01-26
생물 및 화학 영역의 과학적 언어(분자, 단백질, 게놈, 텍스트) 및 멀티모달 조합을 포괄하는 과학 LLM의 연구 범위
본 논문은 생물학 및 화학 분야의 특화된 과학 언어를 처리하도록 설계된 대규모 언어 모델(과학 LLM)에 대한 최초의 포괄적 조사연구다. 텍스트, 분자(SMILES, SELFIES), 단백질(아미노산 서열), 게놈(DNA 서열) 및 이들의 멀티모달 조합을 다루며, 모델 아키텍처, 학습 데이터셋, 평가 방법론을 상세히 분석한다.
과학 LLM의 진화 트리: 텍스트 LLM, 분자 LLM, 단백질 LLM, 게놈 LLM, 멀티모달 LLM의 아키텍처별(Encoder-Only, Decoder-Only, Encoder-Decoder) 발전 흐름
일반 LLM이 분자, RNA, 아미노산 서열 등 과학 언어를 효과적으로 처리하지 못하는 사례
총평: 본 논문은 빠르게 성장하는 과학 LLM 분야의 첫 포괄적 리뷰로, 분자·단백질·게놈·멀티모달 영역을 통합 분석한 점에서 기여도가 크다. 다만 이론적 혁신보다는 기존 모델들의 체계적 종합에 가까우며, 도메인 간 비교 분석 및 실제 과학적 임팩트 검증은 향후 과제로 남아있다.