Scientific Large Language Models: A Survey on Biological & Chemical Domains

저자: Qiang Zhang, Keyang Ding, Tianwen Lyv, Xinda Wang, Qingyu Yin, Yiwen Zhang, Jing Yu, Yuhao Wang, Xiaotong Li, Zhuoyi Xiang, Kehua Feng, Xiang Zhuang, Zeyuan Wang, Ming Qin, Mengyao Zhang, Jinlu Zhang, Jiyu Cui, Tao Huang, Pengju Yan, Renjun Xu | 날짜: 2024-01-26


Essence

Figure 2

생물 및 화학 영역의 과학적 언어(분자, 단백질, 게놈, 텍스트) 및 멀티모달 조합을 포괄하는 과학 LLM의 연구 범위

본 논문은 생물학 및 화학 분야의 특화된 과학 언어를 처리하도록 설계된 대규모 언어 모델(과학 LLM)에 대한 최초의 포괄적 조사연구다. 텍스트, 분자(SMILES, SELFIES), 단백질(아미노산 서열), 게놈(DNA 서열) 및 이들의 멀티모달 조합을 다루며, 모델 아키텍처, 학습 데이터셋, 평가 방법론을 상세히 분석한다.

Motivation

Achievement

Figure 3

과학 LLM의 진화 트리: 텍스트 LLM, 분자 LLM, 단백질 LLM, 게놈 LLM, 멀티모달 LLM의 아키텍처별(Encoder-Only, Decoder-Only, Encoder-Decoder) 발전 흐름

  1. 포괄적 분류 체계:
    • 5개 카테고리(텍스트, 분자, 단백질, 게놈, 멀티모달)로 과학 LLM 체계화
    • 3가지 아키텍처 유형(Encoder-Only, Decoder-Only, Encoder-Decoder)별 분류
  2. 구체적 모델 아키텍처 분석:
    • 분자 LLM: ChemBERTa, MolBERT, Uni-Mol, Molformer 등 30+개 모델
    • 단백질 LLM: ESM 시리즈, ProtTrans, SaProt 등 15+개 모델
    • 게놈 LLM: 게놈 서열 특화 모델군
  3. 데이터셋 및 평가 벤치마크 종합:
    • 각 도메인별 주요 학습 데이터셋 목록화
    • 분자 특성 예측, 단백질 구조 예측, 게놈 기능 예측 등 평가 기준 제시
  4. 멀티모달 LLM의 첫 체계적 탐색:
    • 텍스트와 분자/단백질/게놈 간의 교차 영역 상호작용 분석
    • 기존 리뷰에서 다루지 않은 영역 개척

How

Figure 1

일반 LLM이 분자, RNA, 아미노산 서열 등 과학 언어를 효과적으로 처리하지 못하는 사례

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4.5/5 Overall: 4.4/5

총평: 본 논문은 빠르게 성장하는 과학 LLM 분야의 첫 포괄적 리뷰로, 분자·단백질·게놈·멀티모달 영역을 통합 분석한 점에서 기여도가 크다. 다만 이론적 혁신보다는 기존 모델들의 체계적 종합에 가까우며, 도메인 간 비교 분석 및 실제 과학적 임팩트 검증은 향후 과제로 남아있다.

같이 보면 좋은 논문

기반 연구
생의학 도메인 특화 BERT의 선구적 연구로서 과학 분야 대형언어모델 발전의 기초가 되었다
기반 연구
과학 분야 언어모델의 전반적인 발전 과정에서 SciBERT의 위치와 기여를 이해할 수 있다
기반 연구
과학 분야 특화 언어모델 발전에서 DeepSeek-V3의 기술적 기여를 이론적 맥락에서 이해할 수 있다
기반 연구
자연언어처리에서 LLM의 기본적 이해가 생물학/화학 특화 과학 LLM 개발의 기반이 된다.
기반 연구
생물학과 화학 분야 과학 LLM 서베이가 응용 사례 분석의 이론적 기반을 제공함
기반 연구
생물학과 화학 분야 과학 대규모 언어모델 서베이가 LLM4SR의 도메인별 적용 부분의 이론적 기반이다.
기반 연구
생성형 AI와 파운데이션 모델의 전반적 이해가 과학 특화 LLM 개발의 기반이 된다.
다른 접근
생물의학 분야에서 BERT 기반 접근법과 대규모 언어모델 기반 접근법의 비교 관점을 제공한다.
다른 접근
과학 분야 대규모 언어모델에서 수학/물리학과 생물/화학이라는 서로 다른 도메인 관점입니다.
다른 접근
과학 LLM 서베이에서 004는 포괄적 조사, 720은 생물학과 화학 분야에 특화된 접근법을 사용한다
후속 연구
일반 LLM 서베이에서 과학 분야 특화 LLM으로 확장된 종합 연구
후속 연구
27억 매개변수 바이오메디컬 모델을 생물학 및 화학 분야의 더 대규모 과학 언어모델로 확장한 발전된 연구임
후속 연구
일반적인 NLP 분야 LLM 조사를 생물학/화학 특화 도메인으로 확장한 전문화된 연구이다.
후속 연구
생물학과 화학 분야의 과학적 대규모 언어모델 조사가 본 논문의 물리학 중심 접근을 다른 과학 분야로 확장한 사례이다.
응용 사례
생성형 AI와 파운데이션 모델의 전반적 발전이 생물학/화학 특화 과학 LLM 개발에 직접 적용된다.
← 목록으로 돌아가기