Foundation Molecular Grammar: Multi-Modal Foundation Models Induce Interpretable Molecular Graph Languages

저자: Michael Sun, Weize Yuan, Gang Liu, Wojciech Matusik, Jie Chen | 날짜: 2025 | DOI: 10.48550/arXiv.2505.22948


Essence

Figure 1

주요 FMG 알고리즘 모듈: 기저 클리크 추출부터 근 모티프 선택까지의 단계적 프로세스. MMFM이 의미 있는 부분구조 병합과 화학적 중요도 판단을 수행.

다중 모달 기반 모델(MMFM)의 화학 지식을 활용하여 분자를 이미지와 텍스트로 표현하고, 계층적 분해 알고리즘과 연쇄 추론(chain-of-thought)을 결합해 해석 가능한 분자 그래프 문법(graph grammar)을 자동으로 학습하는 프레임워크를 제안한다.

Motivation

Achievement

Figure 1

FMG 파이프라인: (좌) 기저 클리크 초기화, (중좌) 클리크 그래프 삼각분할, (중앙) MMFM 기반 모티프 병합 결정, (중우) 중요도 낮은 상호작용 제거, (우) 근 모티프 선택.

  1. 데이터 효율성 및 다양성: 기존 SOTA 방법 대비 분자 생성 벤치마크에서 우수한 성능 달성 (합성 가능성, 다양성, 데이터 효율성 모두 개선)
  2. 내재적 해석성: 생성된 문법 규칙이 관능기(functional groups) 등 화학적으로 의미 있는 부분구조로 구성되며, 단계별 추론 과정을 "설계 내러티브(design narrative)"로 기록하여 투명성 확보
  3. 전문가 검증: LLM 판사 및 토너먼트 시스템을 통해 분해(decomposition)의 화학적 타당성을 자동 검증하고, 전문가 기준 레이블과 비교 검증

How

Figure 1

알고리즘 단계:

  1. 기저 클리크 추출(Base Clique Extraction)
    • 분자 구조를 하이퍼그래프로 변환 (노드=결합, 하이퍼엣지=원자 공유 관계 및 최소 고리)
    • 분자 클리크 그래프 생성 (최대 클리크 추출)
  2. 클리크 그래프 삼각분할(Triangulation)
    • 유효한 클리크 트리 존재 보장
  3. 모티프 병합(Motif Merging) - MMFM 개입 지점 1
    • 기저 클리크들을 이미지로 시각화
    • MMFM에 "어떤 쌍을 병합하여 화학적으로 의미 있는 부분구조를 형성할 것인가?"라고 질문
    • 연쇄 추론으로 기능기(ester 그룹, 아크릴레이트 등) 식별
  4. 스패닝 트리 엣지 선택(Spanning Tree Construction) - MMFM 개입 지점 2
    • 클리크 그래프의 사이클 제거
    • MMFM에 "가장/최소 중요한 상호작용은 무엇인가?"라고 질문
    • 화학적 중요도 기반 엣지 제거
  5. 근 모티프 선택(Root Motif Selection) - MMFM 개입 지점 3
    • 파스 트리의 근(root)으로 가장 중요한 모티프 선택
    • 최종 클리크 트리 완성
  6. HRG 변환
    • 클리크 트리를 초엣지 대체 문법(Hyperedge Replacement Grammar)으로 변환
    • 각 모-자 관계가 생성 규칙이 됨

프롬프팅 전략:

Originality

Limitation & Further Study

Evaluation

총평: 본 논문은 다중 모달 기초 모델의 화학 이해 능력을 구조적 그래프 문법 유도에 창의적으로 활용한 우수한 논문이다. 전문가 주석 의존성을 제거하고 자동 검증 메커니즘을 제시함으로써 실무적 기여도가 높으나, MMFM의 일관성 이론적 보장과 대규모 검증이 보완되면 더욱 강력할 것으로 예상된다.

같이 보면 좋은 논문

기반 연구
분자 생성 모델의 기초 연구를 해석 가능한 그래프 문법으로 발전시킨 후속 연구임
기반 연구
멀티모달 분자 문법 기반 모델이 생물분자와 자연언어 통합 학습의 이론적 기반을 제공한다.
기반 연구
재료 과학 기초 모델 서베이가 분자 그래프 문법 개발에 필요한 멀티모달 AI 시스템의 이론적 배경을 제공함
기반 연구
분광 데이터 역변환을 통한 구조 복원이 분자 그래프 문법의 해석 가능한 분자 표현에 물리적 기반을 제공함
다른 접근
원자 구조 특화 LLM과 분자 문법 기반 멀티모달 기초 모델의 서로 다른 접근법
후속 연구
분자 그래프 문법을 분광 데이터 역변환과 결합하여 구조-스펙트럼 관계의 해석성을 높일 수 있음
응용 사례
재료 과학 기초 모델과 분자 그래프 문법의 결합으로 해석 가능한 분자 설계 시스템 구축이 가능함
← 목록으로 돌아가기