저자: Xiner Li, Masatoshi Uehara, Xingyu Su, Gabriele Scalia, Tommaso Biancalani | 날짜: 2025 | DOI: 10.48550/arXiv.2503.02039
확산 모델(diffusion models)의 추론 시간 정렬(inference-time alignment) 문제를 트리 탐색 문제로 재정의하고, 동적 빔 폭 조정을 통해 비미분 보상 함수(non-differentiable reward functions)에 대한 효율적인 최적화를 달성하는 새로운 방법을 제시한다.
Figure 1: 확산 모델의 추론 시간 정렬을 탐색 문제로 프레임화. 녹색 원은 트리 노드(후보 샘플)를 나타내고, 어두운 노드는 높은 잠재 보상을 표시. 파란 화살표는 동적으로 선택된 고보상 궤적
Figure 2: DSearch의 트리 너비 확장과 빔 폭 동적 조정. 약한 빔의 자원을 다른 빔으로 재할당하면서 w(t)b(t) 유지
트리 정의 및 너비 제한:
휴리스틱 함수(Heuristic Function):
룩어헤드 휴리스틱(Lookahead Heuristic):
노이즈 레벨 기반 동적 스케줄링:
한계:
후속 연구:
총평: DSearch는 확산 모델의 추론 시간 정렬 문제를 체계적인 탐색으로 재해석한 실용적이고 견고한 방법론으로, 특히 비미분 보상 함수가 많은 과학 분야에서 높은 적용 가치를 가진다. 다만 동적 조정 메커니즘의 이론적 정당화와 최적성 분석이 보강되면 더욱 강력한 기여가 될 수 있을 것으로 판단된다.