저자: Xingyu Su, Xiner Li, Masatoshi Uehara, Sunwoo Kim, Yulai Zhao | 날짜: 2025 | DOI: 10.48550/arXiv.2507.00445
생물분자 설계에서 미분불가능한 보상함수(reward function)를 최적화하기 위해 확산모델(diffusion model)을 안정적으로 미세조정하는 새로운 프레임워크 VIDD(Value-guided Iterative Distillation for Diffusion models)를 제안한다. 기존 강화학습 기반 방법들의 불안정성과 모드 붕괴 문제를 오프정책(off-policy) 학습과 정방향 KL 발산(forward KL divergence) 최소화를 통해 해결한다.
그림 1: VIDD의 개요. 오프정책 롤인, 값함수 기반 보상가중 롤아웃, 정방향 KL 기반 모델 업데이트를 반복적으로 수행
그림 1: VIDD의 알고리즘 구조 및 세 가지 핵심 단계
알고리즘 구조:
$$\mathcal{L} = KL(p_{out} || p_ω)$$
이는 전향적(forward) KL 목적함수로 모드 커버링(mode covering) 행동을 유도하여 다양성 보존
총평: 이 논문은 생물분자 설계에서 미분불가능한 보상 최적화라는 실질적 도전 과제를 오프정책 학습과 정방향 KL 기반 정책 증류로 우아하게 해결한 강력한 기여다. 단백질·분자 설계 분야에서의 광범위한 실증과 기존 방법 대비 안정성 및 샘플 효율 개선이 논문의 가치를 높인다. 다만 이론적 분석과 대규모 문제에 대한 확장성 검증이 보강되면 더욱 우수한 논문이 될 수 있다.