原文链接:
好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限
好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限
SVG(可缩放矢量图形)因其可缩放性和清晰度,广泛应用于网页设计、品牌标识、用户界面设计及教育材料等领域。然而,创建SVG图形需要专业技能,对非专业人士存在门槛,因此开发自动化工具至关重要。
现有方法存在局限性:基于优化的方法计算开销大且输出结构冗余;自回归方法受限于上下文窗口长度和复杂SVG数据匮乏,难以生成复杂内容。
OmniSVG通过参数化表达和预训练视觉语言模型(VLM),实现了高质量复杂SVG的生成,支持文本到SVG、图像到SVG及角色参考生成等多种模式,成为统一且灵活的解决方案。
项目亮点:
1. 首个端到端多模态复杂SVG生成框架,可处理长达3万个token的SVG,解决“坐标幻觉”问题,生成生动多彩的结果。
2. 开源MMSVG-2M数据集,包含200万个涵盖图标、插图、动漫角色等类型的SVG样本,推动SVG生成技术发展。
3. 实验表现优异,在文本转SVG和图像转SVG任务中,指令遵循性和美观性均优于现有最佳方法。
局限性:复杂样本生成时间较长,未来需提升模型对输入图像风格的鲁棒性。
项目影响力:发布当天成为Huggingface每日论文第一名,GitHub上线7天获1.3k star,受国外媒体广泛关注。