扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得

原文链接：
扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得

1. 论文核心方法

提出Nabla-GFlowNet框架，通过梯度感知的流平衡条件（Nabla-DB）微调Stable Diffusion模型，在保持生成多样性的同时优化美学评分（Aesthetic Score）等奖励函数。

2. 技术亮点

– 将扩散过程建模为动态水流系统，通过残差去噪网络（Residual Nabla-DB损失函数）平衡奖励梯度与预训练模型先验。

– 创新参数化设计：利用单步去噪估计替代额外网络，简化对数流梯度计算。

3. 实验结果

– 定性分析：相比ReFL、DRaFT等方法，Nabla-GFlowNet生成的图像奖励更高且避免过拟合，保留自然性。

– 定量指标：在Aesthetic Score、HPSv2等任务中，DreamSim多样性指标提升，FID分数更低。

4. 对比优势

– 直接奖励优化方法（如DRaFT）易过拟合，传统强化学习（如DDPO）效率低下；

– Nabla-GFlowNet收敛更快，且能稳定保持预训练模型的多样性和先验分布。

5. 资源链接

– 论文地址：arXiv
– 代码开源：GitHub

AI2030