Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design

저자: Xingyu Su, Xiner Li, Masatoshi Uehara, Sunwoo Kim, Yulai Zhao | 날짜: 2025 | DOI: 10.48550/arXiv.2507.00445


Essence

생물분자 설계에서 미분불가능한 보상함수(reward function)를 최적화하기 위해 확산모델(diffusion model)을 안정적으로 미세조정하는 새로운 프레임워크 VIDD(Value-guided Iterative Distillation for Diffusion models)를 제안한다. 기존 강화학습 기반 방법들의 불안정성과 모드 붕괴 문제를 오프정책(off-policy) 학습과 정방향 KL 발산(forward KL divergence) 최소화를 통해 해결한다.

Motivation

Achievement

Figure 1

그림 1: VIDD의 개요. 오프정책 롤인, 값함수 기반 보상가중 롤아웃, 정방향 KL 기반 모델 업데이트를 반복적으로 수행

  1. 안정성 향상: 오프정책 데이터 수집과 정방향 KL 목적함수를 통해 온정책 방법 대비 훈련 안정성이 향상되고 모드 붕괴 위험 감소
  2. 샘플 효율 개선: 기존 RL 방법들(PPO, DDPO)보다 우수한 샘플 효율로 더 적은 보상 평가로 수렴
  3. 광범위한 작업 지원: 단백질 설계(이차 구조 매칭, PD-L1/IFNAR2 결합 설계), 작은 분자 설계, 조절 DNA 설계 등 다양한 생물분자 설계 과제에서 우수한 성능 입증
  4. 비미분가능 보상 최적화: 물리 시뮬레이션이나 과학 지식 기반 보상 등 임의의 비미분가능 보상함수에 대응 가능

How

Figure 1

그림 1: VIDD의 알고리즘 구조 및 세 가지 핵심 단계

알고리즘 구조:

$$\mathcal{L} = KL(p_{out} || p_ω)$$

이는 전향적(forward) KL 목적함수로 모드 커버링(mode covering) 행동을 유도하여 다양성 보존

Originality

Limitation & Further Study

Evaluation

총평: 이 논문은 생물분자 설계에서 미분불가능한 보상 최적화라는 실질적 도전 과제를 오프정책 학습과 정방향 KL 기반 정책 증류로 우아하게 해결한 강력한 기여다. 단백질·분자 설계 분야에서의 광범위한 실증과 기존 방법 대비 안정성 및 샘플 효율 개선이 논문의 가치를 높인다. 다만 이론적 분석과 대규모 문제에 대한 확장성 검증이 보강되면 더욱 우수한 논문이 될 수 있다.

같이 보면 좋은 논문

기반 연구
시뮬레이션 기반 추론의 방법론이 VIDD에서 미분불가능한 보상함수 최적화를 위한 이론적 기반을 제공한다.
기반 연구
반복적 증류 방법론이 SVDD의 보상 유도 샘플링 과정에 이론적 기반을 제공합니다.
다른 접근
ProteinMPNN의 단백질 서열 설계와 VIDD의 생체분자 확산모델 미세조정은 단백질 설계 문제에 대한 서로 다른 생성 모델 접근법이다.
다른 접근
비미분 보상 함수 최적화에서 동적 탐색과 반복적 증류라는 서로 다른 추론 시간 정렬 방법의 비교가 가능함
다른 접근
보상 함수를 활용한 생성 모델 개선에서 Flow와 확산 모델의 서로 다른 접근법을 비교할 수 있음
다른 접근
보상 기반 확산모델 미세조정과 신경진화 포텐셜 모두 미분불가능한 물리적 제약조건을 최적화하는 서로 다른 접근법이다.
다른 접근
신경진화 포텐셜과 보상 기반 확산모델은 복잡한 물리적 제약조건을 만족하는 모델을 학습하는 서로 다른 방법론이다.
후속 연구
PINN의 물리법칙 제약을 확산모델의 보상 기반 미세조정에 통합하여 물리적으로 일관된 분자 생성이 가능하다.
후속 연구
프롬프트 최적화의 반복적 개선 과정이 확산 모델의 보상 기반 미세 조정과 유사한 반복적 증류 메커니즘을 공유한다.
← 목록으로 돌아가기