原文链接:
合成数据助力视频生成提速8.5倍,上海AI Lab开源AccVideo
合成数据助力视频生成提速8.5倍,上海AI Lab开源AccVideo
1. 研究背景与问题
扩散模型在视频生成中性能卓越,但传统方法(如HunyuanVideo)需大量推理步骤去噪,导致生成5秒720p视频耗时3234秒(单A100),存在效率瓶颈。
2. 创新解决方案
上海AI Lab提出AccVideo框架,通过合成数据集SynVid和高效蒸馏技术实现:
– 8.5倍加速:推理速度提升至教师模型的8.5倍
– 低资源训练:仅需8块A100训练12天(3.84万条合成数据)
– 质量保持:生成5秒720p视频质量与教师模型相当
3. 关键技术突破
3.1 SynVid数据集构建
利用教师模型生成高质量视频及去噪轨迹,避免传统蒸馏中的无效数据点问题,显著提升训练效率。
3.2 少步指导机制
通过5个关键扩散时间步学习噪声-视频映射,推理步数减少10倍(m=5)。
3.3 对抗训练策略
噪声感知判别器+时间步投影头设计,避免前向扩散操作,稳定提升生成质量。
4. 实验结果
– 定性对比显示伪影更少(如手部细节)
– 较CogVideoX1.5提升画面保真度和背景效果
– 文本匹配度优于HunyuanVideo(如复古SUV呈现)
5. 开源与影响
– 已集成ComfyUI并支持Lora
– 获Reddit等社区广泛关注
– 开源地址:github.com/aejion/AccVideo