群发资讯网

[LG]《Demystifying Diffusion Objectives:

[LG]《Demystifying Diffusion Objectives: Reweighted Losses are Better Variational Bounds》J Shi, M K. Titsias [Google DeepMind] (2025) 在生成模型领域,扩散模型凭借其卓越的表现,成为图像、音频乃至视频生成的主力军。本文提出了一种全新的理论视角,阐释了为何训练扩散模型时广泛使用的重加权损失(reweighted losses)能带来更优的变分下界。传统训练扩散模型的方法是最大化数据的对数似然的证据下界(ELBO),但实践中,研究者们发现重加权版本的ELBO能显著提升生成样本的感知质量,这一现象此前缺乏严格理论解释。本文通过构建一系列时间相关的变分下界级联,证明了重加权损失实际上是将多个改进的ELBO按权重结合,这些改进的ELBO能提供比标准ELBO更紧的下界,从而减少数据分布与模型分布之间的KL散度。重要贡献包括:1. 引入“最优解码器”(optimal decoder)概念,定义了一组时间依赖的改进ELBO,证明随着时间步增加,ELBO质量提升,KL散度降低。2. 证明重加权损失可视为这些改进ELBO的加权和,具备更好的理论性质。3. 将这一理论推广到离散的掩码扩散模型(masked diffusion models),提出适配的加权策略,实现了比传统ELBO训练显著更优的生成效果。4. 实验验证表明,采用本文提出的重加权策略训练的掩码扩散模型,在ImageNet 64×64数据集上Fidelity(FID)指标大幅提升,甚至超越部分连续扩散模型。此外,本文还揭示了权重函数必须满足单调递增的条件以确保理论有效性,这与近年来文献中提出的权重设计趋势相吻合。针对掩码扩散,作者分析了多种权重函数,包括简单加权(simple weighting)和流匹配(flow matching)加权,发现简单加权不仅符合理论要求,还能在实践中取得最佳表现。这项工作不只是对扩散模型训练目标的理论澄清,更为设计更优训练策略指明了方向,尤其对于多模态数据和离散扩散模型的应用极具启发意义。未来,自动选择最优权重函数和多模态协同训练将是有前景的研究方向。全文详见:arxiv.org/abs/2511.19664