刚刚，豆包1.5·深度思考模型上线，特供「视觉版本」，大模型多模态推理的时代真来了

原文链接：
刚刚，豆包1.5·深度思考模型上线，特供「视觉版本」，大模型多模态推理的时代真来了

1. 豆包大模型家族重磅升级
火山引擎发布「豆包1.5・深度思考模型」，包含语言版（Doubao-1.5-thinking-pro）和视觉版（Doubao-1.5-thinking-pro-vision）。语言版在数学推理、编程竞赛、科学推理等领域表现突出，视觉版支持多模态交互，能结合图像和文本进行深度分析。

2. 多模态能力成为标配
视觉版模型具备强大的视觉理解能力，可处理复杂任务如医疗影像分析、交通事故责任判定等。例如，能通过航拍图识别青海大柴旦翡翠湖，或协助医生分析CT影像生成初步诊断建议。

3. 文生图模型3.0突破
豆包文生图模型升级至3.0版本，实现三大突破：精准的中文小字排版、实拍级图像生成效果、2K高清直出。在权威榜单中跻身全球第一梯队，尤其在海报设计和人物生成上表现优异。

4. 视觉理解模型增强
新增3D定位和视频搜索能力，支持宠物监控等场景。例如，可快速定位视频中宠物的活动片段，毫秒级返回语义相关结果。

5. 生态工具与解决方案
火山引擎发布OS Agent解决方案、GUI Agent大模型（豆包1.5・UI-TARS）及AI云原生推理套件，助力企业低成本落地AI应用。UI-TARS模型在OS类测试中国内领先，支持图形界面智能交互。

6. 市场表现与技术领先
豆包大模型日均tokens调用量超12.7万亿，年增长106倍。火山引擎以46.4%市场份额居中国公有云大模型市场第一，技术能力覆盖复杂企业场景分析。

AI2030

也许你也看到了AI的未来。

刚刚，豆包1.5·深度思考模型上线，特供「视觉版本」，大模型多模态推理的时代真来了

发表回复取消回复

发表回复 取消回复

发表回复取消回复