Dynamic Search for Inference-Time Alignment in Diffusion Models

저자: Xiner Li, Masatoshi Uehara, Xingyu Su, Gabriele Scalia, Tommaso Biancalani | 날짜: 2025 | DOI: 10.48550/arXiv.2503.02039


Essence

확산 모델(diffusion models)의 추론 시간 정렬(inference-time alignment) 문제를 트리 탐색 문제로 재정의하고, 동적 빔 폭 조정을 통해 비미분 보상 함수(non-differentiable reward functions)에 대한 효율적인 최적화를 달성하는 새로운 방법을 제시한다.

Motivation

Achievement

Figure 1: Inference-time alignment of diffusion model as a search problem

Figure 1: 확산 모델의 추론 시간 정렬을 탐색 문제로 프레임화. 녹색 원은 트리 노드(후보 샘플)를 나타내고, 어두운 노드는 높은 잠재 보상을 표시. 파란 화살표는 동적으로 선택된 고보상 궤적

  1. 탐색 프레임워크 제안: 확산 모델의 디노이징 프로세스를 트리 구조로 형식화하여, 보상 최적화를 체계적인 탐색 문제로 재구성. 이는 기존의 ad-hoc한 유도 방식과 달리 일관된 이론적 기초 제공.
  2. 동적 빔 탐색(DSearch) 알고리즘: 고정 너비 빔 탐색의 비효율성을 해결하기 위해, 시간 단계별로 빔 폭 b(t)와 트리 너비 w(t)를 동적으로 조정. 약한 빔의 계산 자원을 다른 빔으로 재할당하여 효율성 극대화(w(t)·b(t) 고정).
  3. 다중 도메인 검증: 생물학적 수열 설계(biological sequence design), 분자 최적화(molecular optimization), 이미지 생성 등 다양한 도메인에서 기존 방법 대비 우수한 보상 최적화 성과 입증.

How

Figure 2: Illustration of DSearch with dynamic width adjustment

Figure 2: DSearch의 트리 너비 확장과 빔 폭 동적 조정. 약한 빔의 자원을 다른 빔으로 재할당하면서 w(t)b(t) 유지

트리 정의 및 너비 제한:

휴리스틱 함수(Heuristic Function):

룩어헤드 휴리스틱(Lookahead Heuristic):

노이즈 레벨 기반 동적 스케줄링:

Originality

Limitation & Further Study

한계:

후속 연구:

Evaluation

총평: DSearch는 확산 모델의 추론 시간 정렬 문제를 체계적인 탐색으로 재해석한 실용적이고 견고한 방법론으로, 특히 비미분 보상 함수가 많은 과학 분야에서 높은 적용 가치를 가진다. 다만 동적 조정 메커니즘의 이론적 정당화와 최적성 분석이 보강되면 더욱 강력한 기여가 될 수 있을 것으로 판단된다.

같이 보면 좋은 논문

기반 연구
확산 모델의 추론 시간 정렬 기법을 Flow 모델의 밀도 확장 문제에 적용할 수 있는 이론적 기반을 제공함
다른 접근
비미분 보상 함수 최적화에서 동적 탐색과 반복적 증류라는 서로 다른 추론 시간 정렬 방법의 비교가 가능함
후속 연구
확산 모델의 추론 시간 보상 가이드 방법론을 동적 빔 탐색으로 발전시킨 개선된 접근법임
응용 사례
확산 모델의 동적 탐색 기법을 Flow 모델의 밀도 확장 최적화에 적용할 수 있는 방법론적 연결점을 제공함
← 목록으로 돌아가기