Scientific Large Language Models: A Survey on Biological & Chemical Domains

Essence

생물 및 화학 영역의 과학적 언어(분자, 단백질, 게놈, 텍스트) 및 멀티모달 조합을 포괄하는 과학 LLM의 연구 범위

본 논문은 생물학 및 화학 분야의 특화된 과학 언어를 처리하도록 설계된 대규모 언어 모델(과학 LLM)에 대한 최초의 포괄적 조사연구다. 텍스트, 분자(SMILES, SELFIES), 단백질(아미노산 서열), 게놈(DNA 서열) 및 이들의 멀티모달 조합을 다루며, 모델 아키텍처, 학습 데이터셋, 평가 방법론을 상세히 분석한다.

Motivation

Known:
- 일반 LLM(GPT-3, GPT-4)은 자연언어 처리에 뛰어남
- 분자, 단백질, 게놈 등 과학 언어에는 독특한 어휘와 문법 규칙 존재
- 예: "C"는 자연언어에서는 문자이나 단백질 언어에서는 시스테인(Cysteine), SMILES에서는 탄소(Carbon)를 의미
Gap:
- 과학 언어별 LLM 발전이 각 도메인 내에서만 탐색됨
- 분자, 단백질, 게놈, 멀티모달 LLM을 통합하는 체계적 리뷰 부재
- 텍스트와 과학 언어의 상호작용을 다루는 포괄적 분석 없음
Why:
- Wittgenstein의 언어 철학: "언어의 한계는 세계의 한계"
- 일반 LLM의 세계는 자연언어에 제한되며, 과학 언어 처리에는 특화된 모델 필요
Approach:
- 생물/화학 영역의 과학 LLM을 포괄적으로 조사
- 텍스트, 분자, 단백질, 게놈, 멀티모달 5가지 카테고리로 분류
- 각 카테고리별 모델 아키텍처, 능력(downstream task), 데이터셋, 평가 방법론 분석

Achievement

과학 LLM의 진화 트리: 텍스트 LLM, 분자 LLM, 단백질 LLM, 게놈 LLM, 멀티모달 LLM의 아키텍처별(Encoder-Only, Decoder-Only, Encoder-Decoder) 발전 흐름

포괄적 분류 체계:
- 5개 카테고리(텍스트, 분자, 단백질, 게놈, 멀티모달)로 과학 LLM 체계화
- 3가지 아키텍처 유형(Encoder-Only, Decoder-Only, Encoder-Decoder)별 분류
구체적 모델 아키텍처 분석:
- 분자 LLM: ChemBERTa, MolBERT, Uni-Mol, Molformer 등 30+개 모델
- 단백질 LLM: ESM 시리즈, ProtTrans, SaProt 등 15+개 모델
- 게놈 LLM: 게놈 서열 특화 모델군
데이터셋 및 평가 벤치마크 종합:
- 각 도메인별 주요 학습 데이터셋 목록화
- 분자 특성 예측, 단백질 구조 예측, 게놈 기능 예측 등 평가 기준 제시
멀티모달 LLM의 첫 체계적 탐색:
- 텍스트와 분자/단백질/게놈 간의 교차 영역 상호작용 분석
- 기존 리뷰에서 다루지 않은 영역 개척

How

일반 LLM이 분자, RNA, 아미노산 서열 등 과학 언어를 효과적으로 처리하지 못하는 사례

과학 언어 정의:
- 분자 언어: SMILES(Simplified Molecular Input Line Entry System), SELFIES(Self-Referencing Embedded Strings), InChI
- 단백질 언어: 20개 표준 아미노산으로 구성된 서열
- 게놈 언어: A, T, G, C 뉴클레오티드 서열
- 텍스트 언어: 화학/생물학 도메인 자연언어(논문, 특허, 교과서)
모델 아키텍처 분석:
- Encoder-Only (BERT 계열): 분자 특성 분류, 단백질 구조 예측
- Decoder-Only (GPT 계열): 분자 생성, 단백질 설계
- Encoder-Decoder (Transformer 계열): 분자 변환 반응(retrosynthesis), 단백질 기능 예측
학습 방법론:
- 사전학습(Pre-training): 대규모 unlabeled 데이터(분자 DB, 게놈 시퀀스 DB)에서의 자기지도학습
- 미세조정(Fine-tuning): 특정 downstream task에 대한 지도학습
평가 방법론:
- 판별 과제(Discriminative): 분류, 회귀 정확도(Accuracy, R²)
- 생성 과제(Generative): 분자 생성 유효성(Validity), 다양성(Diversity), 신규성(Novelty)

Originality

최초성:
- 과학 LLM 분야의 첫 종합 리뷰 논문
- 분자, 단백질, 게놈 LLM을 단일 프레임워크로 통합 분석
통합적 관점:
- 개별 도메인 연구를 넘어 과학 언어의 공통 특성 강조
- "과학 언어"라는 개념 정립 및 형식화
멀티모달 영역 개척:
- 텍스트-분자, 텍스트-단백질, 분자-단백질 간 교차 모달 상호작용 최초 분석
- 기존 리뷰에서 전혀 다루지 않은 영역
실용적 자원 제공:
- GitHub에서 오픈 소스 모델, 데이터셋, 벤치마크 종합 자료 유지
- 연구자 커뮤니티의 접근성 향상

Limitation & Further Study

범위의 제한성:
- 수학 언어(명확한 어휘/문법 부재로 제외) 미포함
- Graph Neural Network, Diffusion Model 등 비-Transformer 아키텍처 제외
- 생물/화학 영역에 국한, 물리학·재료과학 등 다른 과학 도메인 미포함
평가 방법론의 한계:
- 도메인별 평가 기준 불균형: 단백질은 구조 정확도, 분자는 생성 유효성 등 이질적 평가 척도
- 실제 과학적 유용성(약물 활성, 단백질 기능)과 모델 성능 간의 괴리 미분석
후속 연구 방향:
1. 멀티모달 성능 향상: 텍스트-분자-단백질-게놈 간 더 정교한 교차 정렬(cross-alignment) 메커니즘 개발
2. 생물물리학적 제약 통합: 열역학, 동역학 물리 법칙을 신경망에 제약 조건으로 통합
3. 도메인 간 전이학습: 분자 사전학습이 단백질 작업에 기여하는 정도 정량화
4. 실험적 검증: 모델 예측 결과의 실제 생화학 실험 검증 시스템 구축
5. 해석 가능성(Interpretability): Black-box 모델의 의사결정 근거를 화학/생물학 메커니즘으로 설명 가능하게 개선