MatterChat: A Multi-Modal LLM for Material Science

Motivation

Known:
- 밀도범함수 이론(DFT)과 기계학습(ML) 기반 원자간 포텐셜(MLIP)은 물질 성질 예측에 효과적이지만, DFT는 계산 비용이 높고 MLIP은 과학적 맥락과 자연어 처리 능력이 부족함
- 최근 LLM이 여러 과학 분야에 활용되고 있으나, 기존 방법들은 화학식(SMILES), CIF 파일 등 텍스트 기반 표현만 사용하여 원자 구조의 고해상도 정보 손실
Gap:
- 그래프 기반 ML 모델은 구조 정보를 잘 유지하지만 인간-AI 상호작용과 과학적 추론 능력이 제한적
- 텍스트 기반 LLM은 자연어 처리는 우수하지만 물질의 정량적 예측 성능이 떨어짐
Why:
- 물질 과학에서는 원자 수준의 정밀한 구조 정보와 자연어 기반의 사용자 상호작용을 동시에 필요로 함
- 고도의 과학적 추론과 합성 가이던스를 제공하기 위해 두 가지 정보의 통합이 필수
Approach:
- 사전학습된 범용 기계학습 원자간 포텐셜(uMLIP, CHGNet)과 사전학습된 LLM(Mistral 7B)을 학습 가능한 브리지 모듈로 연결
- BLIP2 아키텍처 기반의 트랜스포머 브리지 모델로 원자 임베딩과 텍스트 임베딩을 정렬

그림 1: (a) 물질 처리, 언어 처리, 브리지 모듈 세 핵심 컴포넌트, (b) 주기표상 원소 분포 (142,899개 물질), (c) 공간군별 결정 구조 분포

성과 1 - 구조 인식 통합: 원자 수준의 완전한 구조 정보를 보존하면서 LLM과 성공적으로 통합. CHGNet의 원자 임베딩을 32개의 학습 가능 쿼리 벡터로 변환하여 교차 주의(cross-attention)와 자기 주의(self-attention)의 교대 메커니즘으로 언어 호환 임베딩 생성
성과 2 - 성능 우수성:
- 물질 성질 예측에서 GPT-4 포함 범용 LLM 능가
- 12개 작업(설명 3개, 성질 예측 9개)에서 체계적으로 우수한 성능
- UMAP 시각화로 구조와 성질 정보 효과적 보존 입증
성과 3 - 과학적 상호작용:
- 화학식, 공간군, 밴드갭, 형성 에너지, 자기 성질 등 다양한 물질 쿼리에 정확한 응답
- 합성 단계별 가이던스와 고도의 과학적 추론 능력 시연

그림 2: 여러 물질(Y₂Zn₄Se₂, Mg₁₄VSb 등)에 대한 인간-AI 상호작용의 구체적 예시

아키텍처 및 학습 전략:

물질 처리 분야(Material Processing Branch):
- CHGNet(상태-최첨단 그래프 기반 uMLIP)으로 결정 구조를 그래프로 인코딩
- Materials Project에서 큐레이션한 142,899개 물질 구조 활용
- 원자의 국소 환경 효과적 포착
언어 처리 분야(Language Processing Branch):
- Mistral 7B LLM으로 사용자 텍스트 프롬프트 처리
- 사용자 질의를 밀집 임베딩으로 변환
브리지 모듈(Bridge Model):
- BLIP2 아키텍처 기반, 32개 학습 가능 쿼리 벡터 포함
- 짝수 계층: 원자 임베딩에서 핵심 특징 추출 (교차 주의)
- 홀수 계층: 표현 깊이 강화 (자기 주의)
- 최종 선형 투영층으로 LLM 호환 임베딩 생성
데이터셋 및 작업:
- 12개 작업: 설명 작업(화학식, 공간군, 결정계) + 성질 예측(금속성, 직접 밴드갭, 안정성, 자기성, 형성 에너지 등)
- 각 물질 구조마다 텍스트 기반 데이터셋 생성
학습 전략:
- 사전학습 모델 활용으로 학습 비용 감소
- 모듈식 구조로 유연성 향상 (각 컴포넌트 독립적 업데이트 가능)

원자간 포텐셜과 LLM의 창의적 결합: 기존의 텍스트 기반 물질 표현 방식(SMILES, CIF)에서 벗어나 사전학습된 uMLIP의 원자 임베딩을 직접 활용하는 혁신적 접근
브리지 모듈 설계: BLIP2 아키텍처를 물질 과학 도메인에 맞게 적응시켜 이질적 임베딩 공간의 효율적 정렬 달성
멀티모달 RAG 적용: Retrieval-Augmented Generation 접근으로 물질 과학 작업에 대한 견고성 향상 제시
통합 평가 프레임워크: 성질 예측 성능뿐만 아니라 과학적 추론 능력, 합성 가이던스, 임베딩 시각화를 종합적으로 평가

데이터 제한: 142,899개의 물질은 전체 화학 공간의 극소수. 희귀하거나 새로운 물질에 대한 예측 성능은 미검증
구조 정보 손실의 가능성: 브리지 모듈의 32개 쿼리 벡터로의 축소 과정에서 세밀한 구조 특징이 손실될 수 있음
계산 복잡성: 원자 수가 많은 대형 구조에 대한 확장성(scalability) 미평가
물리적 해석성 부족: 블랙박스 LLM의 특성상 물질 성질 예측의 물리적 근거 제시 어려움
후속 연구 방향:
- 더 큰 범용 LLM(GPT-4 scale)과의 통합 시도
- 합성 가능성(synthesizability) 및 실험 검증 정합성 향상
- 동적 구조(molecular dynamics) 및 표면 성질 확장
- 도메인 특화 fine-tuning을 통한 성능 최적화