저자: Masatoshi Uehara, Yulai Zhao, Chenyu Wang, Xiner Li, Aviv Regev | 날짜: 2025 | DOI: 10.48550/arXiv.2501.09685
Figure 2: 최적화 목표 달성을 위한 다양한 추론 시간 기법들 (Best-of-N, 분류기 가이던스, SMC 기반 가이던스, 값 기반 중요도 샘플링)
본 튜토리얼은 사전학습된 확산 모델을 미세조정하지 않으면서 추론 시간(inference time)에 보상 함수(reward function)를 최대화하는 정렬(alignment) 기법들을 통일된 관점에서 리뷰하고, 단백질 설계 같은 과학 분야에서 실제로 유용한 비미분 가능한 보상 피드백을 다루는 방법론들을 포괄적으로 다룬다.
Figure 3: 트리 너비(tree width) 증가에 따른 보상 함수 최적화의 개선 - 단백질 안정성(pLDDT)과 이미지 미적 점수 모두에서 계산 예산 증가에 비례한 성능 향상 관찰
Figure 1: 미세조정 없이 사전학습 생성 모델과 보상 모델을 통합하여 기능성 높은 자연스러운 설계 생성
핵심 수식적 표현:
주요 기법들의 구분 기준:
선택 고려사항:
총평: 본 튜토리얼은 확산 모델의 추론 시간 정렬 기법들을 처음으로 체계적으로 통합하는 시도로서, 특히 비미분 보상이 실제인 과학 도메인의 관점에서 현실적 가치가 높으며, 제시된 프레임워크는 향후 연구의 이론적 기초가 될 수 있다. 다만 각 기법의 근사 품질, 수렴성, 값 함수 오차의 영향 등에 대한 정량적 이론 분석이 보강된다면 더욱 강력한 참고 자료가 될 것이다.