原文链接:
扩散模型奖励微调新突破:Nabla-GFlowNet让多样性与效率兼得
扩散模型奖励微调新突破:Nabla-GFlowNet让多样性与效率兼得
1. 论文核心方法
提出Nabla-GFlowNet框架,通过梯度感知的流平衡条件(Nabla-DB)微调Stable Diffusion模型,在保持生成多样性的同时优化美学评分(Aesthetic Score)等奖励函数。
2. 技术亮点
– 将扩散过程建模为动态水流系统,通过残差去噪网络(Residual Nabla-DB损失函数)平衡奖励梯度与预训练模型先验。
– 创新参数化设计:利用单步去噪估计替代额外网络,简化对数流梯度计算。
3. 实验结果
– 定性分析:相比ReFL、DRaFT等方法,Nabla-GFlowNet生成的图像奖励更高且避免过拟合,保留自然性。
– 定量指标:在Aesthetic Score、HPSv2等任务中,DreamSim多样性指标提升,FID分数更低。
4. 对比优势
– 直接奖励优化方法(如DRaFT)易过拟合,传统强化学习(如DDPO)效率低下;
– Nabla-GFlowNet收敛更快,且能稳定保持预训练模型的多样性和先验分布。