扩散模型奖励微调新突破:Nabla-GFlowNet让多样性与效率兼得

原文链接:
扩散模型奖励微调新突破:Nabla-GFlowNet让多样性与效率兼得


1. 论文核心方法

提出Nabla-GFlowNet框架,通过梯度感知的流平衡条件(Nabla-DB)微调Stable Diffusion模型,在保持生成多样性的同时优化美学评分(Aesthetic Score)等奖励函数。

2. 技术亮点

– 将扩散过程建模为动态水流系统,通过残差去噪网络(Residual Nabla-DB损失函数)平衡奖励梯度与预训练模型先验。

– 创新参数化设计:利用单步去噪估计替代额外网络,简化对数流梯度计算。

3. 实验结果

定性分析:相比ReFL、DRaFT等方法,Nabla-GFlowNet生成的图像奖励更高且避免过拟合,保留自然性。

定量指标:在Aesthetic Score、HPSv2等任务中,DreamSim多样性指标提升,FID分数更低。

4. 对比优势

– 直接奖励优化方法(如DRaFT)易过拟合,传统强化学习(如DDPO)效率低下;

– Nabla-GFlowNet收敛更快,且能稳定保持预训练模型的多样性和先验分布。

5. 资源链接

– 论文地址:arXiv
– 代码开源:GitHub

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注