合成数据助力视频生成提速8.5倍，上海AI Lab开源AccVideo

原文链接：
合成数据助力视频生成提速8.5倍，上海AI Lab开源AccVideo

1. 研究背景与问题
扩散模型在视频生成中性能卓越，但传统方法（如HunyuanVideo）需大量推理步骤去噪，导致生成5秒720p视频耗时3234秒（单A100），存在效率瓶颈。

2. 创新解决方案
上海AI Lab提出AccVideo框架，通过合成数据集SynVid和高效蒸馏技术实现：
– 8.5倍加速：推理速度提升至教师模型的8.5倍
– 低资源训练：仅需8块A100训练12天（3.84万条合成数据）
– 质量保持：生成5秒720p视频质量与教师模型相当

3. 关键技术突破
3.1 SynVid数据集构建
利用教师模型生成高质量视频及去噪轨迹，避免传统蒸馏中的无效数据点问题，显著提升训练效率。
3.2 少步指导机制
通过5个关键扩散时间步学习噪声-视频映射，推理步数减少10倍（m=5）。
3.3 对抗训练策略
噪声感知判别器+时间步投影头设计，避免前向扩散操作，稳定提升生成质量。

4. 实验结果
– 定性对比显示伪影更少（如手部细节）
– 较CogVideoX1.5提升画面保真度和背景效果
– 文本匹配度优于HunyuanVideo（如复古SUV呈现）

5. 开源与影响
– 已集成ComfyUI并支持Lora
– 获Reddit等社区广泛关注
– 开源地址：github.com/aejion/AccVideo

AI2030

也许你也看到了AI的未来。

合成数据助力视频生成提速8.5倍，上海AI Lab开源AccVideo

发表回复取消回复

发表回复 取消回复

发表回复取消回复