刚刚,豆包1.5·深度思考模型上线,特供「视觉版本」,大模型多模态推理的时代真来了

原文链接:
刚刚,豆包1.5·深度思考模型上线,特供「视觉版本」,大模型多模态推理的时代真来了


1. 豆包大模型家族重磅升级
火山引擎发布「豆包1.5・深度思考模型」,包含语言版(Doubao-1.5-thinking-pro)和视觉版(Doubao-1.5-thinking-pro-vision)。语言版在数学推理、编程竞赛、科学推理等领域表现突出,视觉版支持多模态交互,能结合图像和文本进行深度分析。

2. 多模态能力成为标配
视觉版模型具备强大的视觉理解能力,可处理复杂任务如医疗影像分析、交通事故责任判定等。例如,能通过航拍图识别青海大柴旦翡翠湖,或协助医生分析CT影像生成初步诊断建议。

3. 文生图模型3.0突破
豆包文生图模型升级至3.0版本,实现三大突破:精准的中文小字排版、实拍级图像生成效果、2K高清直出。在权威榜单中跻身全球第一梯队,尤其在海报设计和人物生成上表现优异。

4. 视觉理解模型增强
新增3D定位和视频搜索能力,支持宠物监控等场景。例如,可快速定位视频中宠物的活动片段,毫秒级返回语义相关结果。

5. 生态工具与解决方案
火山引擎发布OS Agent解决方案、GUI Agent大模型(豆包1.5・UI-TARS)及AI云原生推理套件,助力企业低成本落地AI应用。UI-TARS模型在OS类测试中国内领先,支持图形界面智能交互。

6. 市场表现与技术领先
豆包大模型日均tokens调用量超12.7万亿,年增长106倍。火山引擎以46.4%市场份额居中国公有云大模型市场第一,技术能力覆盖复杂企业场景分析。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注