Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review

저자: Masatoshi Uehara, Yulai Zhao, Chenyu Wang, Xiner Li, Aviv Regev | 날짜: 2025 | DOI: 10.48550/arXiv.2501.09685


Essence

Figure 2: 대표적인 추론 시간 알고리즘들의 요약

Figure 2: 최적화 목표 달성을 위한 다양한 추론 시간 기법들 (Best-of-N, 분류기 가이던스, SMC 기반 가이던스, 값 기반 중요도 샘플링)

본 튜토리얼은 사전학습된 확산 모델을 미세조정하지 않으면서 추론 시간(inference time)에 보상 함수(reward function)를 최대화하는 정렬(alignment) 기법들을 통일된 관점에서 리뷰하고, 단백질 설계 같은 과학 분야에서 실제로 유용한 비미분 가능한 보상 피드백을 다루는 방법론들을 포괄적으로 다룬다.

Motivation

Achievement

Figure 3: 값 기반 빔 서치를 통한 계산 확장

Figure 3: 트리 너비(tree width) 증가에 따른 보상 함수 최적화의 개선 - 단백질 안정성(pLDDT)과 이미지 미적 점수 모두에서 계산 예산 증가에 비례한 성능 향상 관찰

  1. 통일된 이론적 틀: 순차 몬테카를로(SMC) 기반 가이던스, 값 기반 중요도 샘플링, 분류기 가이던스 등 기존의 다양한 기법들이 모두 동일한 소프트 최적 정책을 근사하려고 시도함을 보여줌으로써, 각 방법의 근본적 연결성 제시
  2. 비미분 보상에 대한 포괄적 기법: 분자 설계에서 흔한 비미분 가능한 물리 시뮬레이션이나 분자 지문(fingerprint) 기반 학습 모델을 다루는 SMC 기반 및 값 기반 중요도 샘플링 방법들을 상세히 리뷰
  3. 계산 확장성 입증: Figure 3에서 보듯이 트리 너비를 증가시키면서 추론 시간 계산을 확장할 때 보상 함수가 선형에 가까운 개선 달성 가능함을 시각화
  4. 교차 도메인 통찰: 언어 모델과 확산 모델의 추론 시간 기법들 간 연결성 논의 및 탐색 알고리즘(search algorithm) 기반 접근법 추가

How

Figure 1: 추론 시간 기법의 목표

Figure 1: 미세조정 없이 사전학습 생성 모델과 보상 모델을 통합하여 기능성 높은 자연스러운 설계 생성

핵심 수식적 표현:

주요 기법들의 구분 기준:

선택 고려사항:

  1. 계산/메모리 효율성과 병렬화 가능성
  2. 최적화 목표 (분류 vs. 회귀형 보상)
  3. 보상 피드백의 미분 가능 여부

Originality

Limitation & Further Study

Evaluation

총평: 본 튜토리얼은 확산 모델의 추론 시간 정렬 기법들을 처음으로 체계적으로 통합하는 시도로서, 특히 비미분 보상이 실제인 과학 도메인의 관점에서 현실적 가치가 높으며, 제시된 프레임워크는 향후 연구의 이론적 기초가 될 수 있다. 다만 각 기법의 근사 품질, 수렴성, 값 함수 오차의 영향 등에 대한 정량적 이론 분석이 보강된다면 더욱 강력한 참고 자료가 될 것이다.

같이 보면 좋은 논문

기반 연구
확산 모델의 추론 시간 정렬이 구조 설계 최적화 전반에 제공하는 이론적 기반을 다룬다.
기반 연구
추론 시간 보상 최적화 기법이 적응형 AI 시스템 개발에 제공하는 핵심 방법론을 다룬다.
기반 연구
추론 시간 정렬 기법이 적응형 AI 시스템 개발에 제공하는 이론적 기반을 다룬다.
기반 연구
추론 시간 정렬의 이론적 근거가 되는 LLM 내부 메커니즘에 대한 회로 기반 이해를 제공한다.
기반 연구
추론 시간 정렬 기법이 테스트 타임 보상 최적화의 이론적 기반을 제공합니다.
응용 사례
추론 시간 정렬 기법이 구조 기반 약물 설계의 분자 최적화에 구체적으로 적용되는 사례를 보여준다.
응용 사례
분자 설계에서 추론 시간 정렬이 구조 기반 약물 설계의 보상 함수 최적화에 적용되는 사례를 보여준다.
응용 사례
추론 시간 정렬의 보상 최적화 개념이 기계 구조 설계의 반복적 개선에 적용되는 사례를 보여준다.
응용 사례
LLM 추론 메커니즘의 회로 기반 이해가 추론 시간 정렬 방법 개발에 적용되는 원리를 보여준다.
← 목록으로 돌아가기