Enhancing chemical reaction and retrosynthesis prediction with large language model and dual-task learning

저자: Xuan Lin, Qingrui Liu, Hongxin Xiang, Daojian Zeng, Xiangxiang Zeng | 날짜: 2025 | DOI: arXiv:2505.02639


Essence

Figure 1

BRICS 기반 단편(fragment)과 반응물(reactant) 간의 유사성 분포(평균 66.5%) 및 이중 과제 학습을 통한 성능 향상(6.3% 개선)

본 논문은 대규모 언어 모델(LLM)을 화학 반응 및 역합성 예측에 적용할 때 직면하는 데이터 부족과 과제 간 상관관계 무시 문제를 해결하기 위해, BRICS 기반 440만 개 분자 데이터셋과 이중 과제 학습 전략을 갖춘 ChemDual 프레임워크를 제안한다.

Motivation

Achievement

Figure 2

ChemDual의 전체 구조: 데이터셋 구축, 다중 규모 토크나이저, 이중 과제 학습 모듈

  1. 성능 향상: Mol-Instruction 및 USPTO-50K 데이터셋에서 기존 단일 과제 접근법 및 일반 오픈소스 LLM을 능가하는 정확도 달성 (반응 예측에서 이중 과제 학습 적용 시 6.3% Exact Match Score 개선)
  2. 약물 설계 잠재력: 분자 도킹 분석 결과 ChemDual이 단백질 결합 친화도가 우수하고 다양한 화합물을 생성하여 신약 설계에 강한 응용 가능성 입증
  3. 효율적 데이터 구축: 20M SMILES 시퀀스로부터 440만 개의 학습용 지시문 자동 생성으로 데이터 획득 비용 대폭 절감

How

Figure 3

지시문 세트 예시: 역합성(전방 과제)과 반응 예측(후방 과제)

Dataset Construction (3.1절)

Multi-scale Tokenizer (3.2절)

Dual-task Learning (3.3절)

Originality

Limitation & Further Study

Evaluation

총평: ChemDual은 BRICS 기반 저비용 대규모 데이터셋과 화학적 직관에 기반한 이중 과제 학습으로 화학 반응/역합성 예측에서 의미 있는 성능 향상을 달성했으며, 약물 설계 응용 가능성을 실증했다. 다만 단편화 방법의 한계, 해석 가능성 부족, 평가 범위 확대의 필요성이 향후 개선 방향이다.

같이 보면 좋은 논문

기반 연구
과학 문헌에서 화학 행동 추출이 ChemDual의 화학 반응 데이터 처리에 기반 방법론을 제공한다.
후속 연구
화학 반응 예측을 위한 ChemDual 프레임워크가 ActionIE의 화학 합성 행동 추출을 더욱 포괄적으로 확장한다.
후속 연구
인간 수준의 제약 역합성 계획이 ChemDual의 이중 과제 학습 전략을 더욱 정교하게 확장한다.
후속 연구
역합성 예측 기술이 실질적 제약조건을 고려한 인간 수준 합성 계획으로 확장됩니다.
응용 사례
화학 도구로 증강된 대형 언어모델이 ChemDual 프레임워크의 실제 적용을 구체적으로 보여준다.
← 목록으로 돌아가기