分类目录归档：国内

国内人工智能发展

Manus AI整合图像生成功能，引领智能助手新趋势

发表评论

原文链接：
I tried Manus AI’s impressive new image generation and ChatGPT should watch out by:Eric Hal Schwartz

Manus AI整合图像生成功能，引领智能助手新趋势

全功能AI代理定位 Manus AI作为一款来自中国的自主在线协作伙伴，通过“隐形鼠标与键盘”技术实现任务自动化，具备将复杂请求拆解并跨平台执行的能力。

差异化图像生成优势核心竞争力在于将图像生成嵌入整体工作流，与Midjourney、Firefly等专注单一创作的工具不同，Manus生成的图像始终服务于具体商业目标（如食物车品牌设计）。

跨工具整合实操表现实测显示其不仅能根据用户需求自动生成食物车形象、菜单、服饰等要素，还能结合自定义素材（如上传头像）完成场景化渲染，真正实现创意与任务的模块化联动。

发展前瞻性与现存挑战虽然目前存在局部细节瑕疵（如人物形态真实性）和生成速度较慢等问题，但其构建的“目标导向型”AI模式预示未来AI将更注重跨模型协同而非单纯性能竞赛，为商业项目和虚构世界的构建提供更多可能性。

宝马中国宣布新车型接入DeepSeek 含5系、全新X3

发表评论

原文链接：
宝马中国宣布新车型接入DeepSeek 含5系、全新X3

宝马中国第三季度引入DeepSeek技术提升车载智能交互体验

跨度轿车品牌宝马于2023年第三季度宣布，旗下新车型将正式接入革命性的DeepSeek技术。这一创新科技将应用于搭载第九代操作系统的多款新车，涵盖BWM 5系长轴距版、纯电动i5及<全新 X3长轴距版等主力车型，现有车主亦可通过升级享受该功能。

通过深度整合的BMW智能个人助理，用户可实现更自然的语音交互体验。系统不仅能精准理解 “去静安寺商圈购物” 等生活化指令并即时响应，更能针对如 “用童话故事解释黑洞” 等复杂需求生成创意内容，显著提升了交互的趣味性和场景适应性。

宝马官方强调，引入DeepSeek技术的核心目标在于强化车载系统的 “场景化服务能力”。该技术突破性地实现驾驶过程中信息获取与服务调用的零层级操作，使用户通过最直观的语音对话即可掌控车辆功能，兑现”科技为生活服务“的品牌承诺。

国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布

发表评论

原文链接：
国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布

2025年4月25日，百度Create AI开发者大会在北京隆重举行，百度正式发布全新升级的文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体，标志着AI编程工具进入“智能驾驶”时代，程序员的核心工作从“写代码”转向“审代码”。

百度工程效能部总监臧志指出，AI是百度提升工程效率最重要的生产力来源，而Zulu智能体作为大模型能力与研发生产力的桥梁，具备四大核心突破：多模态编程支持（上传图片一键生成完整代码）、开发工具调用能力（自动搭建环境并适配JetBrains、VSCode等主流IDE）、上下文理解引擎（整合文心4.5与X1的推理能力），以及构建更开放的研发生态系统（通过MCP协议兼容主流工具链）。此外，实时预览代码效果功能进一步提升了开发效率。

在~~后端开发场景~~中，Zulu可自动分析工程结构，无需人工指定即可生成多个接口和实现类文件（例如“增加支付功能”需求），并实现复杂工程重构速度从传统模式下的1天压缩至1分钟内完成，其效率提升能力已获得权威验证——80%开发者认为AI工具可显著提升效率（平均增幅35%），20%开发者体验效率提升超50%。同时，Zulu为零开发经验用户提供新范式支持，实现全自然语言开发网站、小游戏，真正开启“会说话就能编程”“图片秒变代码”的新时代。

截止目前，百度每日新增代码中由文心快码生成的比例已达40%以上，累计服务开发者突破760万。结合代码预测改写引擎新增的光标预测与多行智能改写功能，文心快码实现了从需求到调试、验证的全流程自动化生成，助力开发者摆脱重复劳动，真正成为“十倍工程师”。

智谱与生数科技达成战略合作专注大模型联合创新

发表评论

原文链接：
智谱与生数科技达成战略合作专注大模型联合创新

智谱与生数科技达成战略合作

4月27日，清华大学旗下的智谱（Z.ai）与生数科技（shengshu.com）宣布达成重大战略合作，聚焦大语言模型和多模态生成模型的技术突破，共同推进国产大模型的产业落地。

合作涵盖四大领域：联合研发、产品联动、解决方案整合及行业协同。其中，在产品合作中，智谱将通过MaaS平台接入生数科技的Vidu API，整合视频生成技术，为开发者和企业客户提供更全面的服务支持。

双方还将针对政企服务、泛互联网、文化旅游、广告营销、动漫影视及广电媒体等垂直行业，打造多模态生成技术的高竞争力解决方案，推动AI应用的多元化与规模化落地。

联合研发方面，智谱GLM系列大模型与生数科技的多模态通用大模型形成技术协同。值得关注的是，智谱的开源视频生成模型“CogVideoX”已在GitHub获得超1万星标，展现了其技术领先性。双方将共同提升国产大模型的综合实力。

此次合作体现了清华系人工智能领军企业强强联合的成果，既强化了国产大模型的技术创新根基，也为其在重点行业的生态发展注入活力，凸显了中国AI产业的长效潜力与战略布局。

理想同学MindGPT 3.0上线：深度思考能力媲美DeepSeek

发表评论

原文链接：
理想同学MindGPT 3.0上线：深度思考能力媲美DeepSeek

理想汽车智能助手“理想同学”升级至MindGPT3.0，开启深度思考与智能交互新体验

近日，理想汽车宣布旗下智能助手“理想同学”完成重大升级，搭载的MindGPT3.0模型已全面上线并向用户开放。此次升级标志着企业在人工智能领域取得新突破，用户可享受更智能高效的交互服务。新模型在性能上达到行业顶尖水平，其深度思考能力可与DeepSeek-V3-0324（短思维链）及DeepSeek-R1（长思维链）媲美，凸显理想汽车AI技术的雄厚实力。

全新交互方式是本次升级亮点：支持直观展示结构化思维链，让用户清晰看到思考过程；具备反思再检索功能，能持续优化答案精度；对语音输入的理解与容错能力显著增强，即使不清晰指令也能精准识别。用户可通过手机App及网页版免费体验这些革新功能。

在复杂场景应用方面，MindGPT3.0通过优化任务规划能力，实现了更合理的多步骤指令执行。升级的工具生态扩展了实时股票查询和票务信息查询等实用功能，并通过连续对话优化使交互流畅度大幅提升。

针对用户痛点，理想汽车新增无关历史对话过滤功能。该功能可自主分析对话历史，剔除与当前问题无关的冗余信息，有效避免传统模型强行关联无效上下文的问题，显著提升回复精准度与用户体验。

腾讯混元InstantCharacter开源，高度角色一致性、自定义姿势、样式和场景

发表评论

原文链接：
腾讯混元InstantCharacter开源，高度角色一致性、自定义姿势、样式和场景

腾讯混元开源角色个性化框架InstantCharacter

腾讯混元团队正式开源新一代角色个性化框架InstantCharacter，其基于扩散变换器（DiT）架构打造，实现了角色特征一致性、图像生成质量与开放域可控灵活性的平衡，成为业界首个具备这一能力的框架。该工具允许开发者与创作者通过单一初始图像结合文本提示，生成多风格、多场景、多姿态的高质量角色图像，覆盖写实、动漫、吉卜力等多样化艺术风格。

核心创新在于采用可扩展变换器适配器架构，通过高效微调机制显著提升角色定制能力。相较于传统方法，其显著优势包括：保留角色特征的一致性同时增强生成图像多样性；强化文本提示对生成内容的可控性，为人工智能驱动的角色设计提供了全新解决方案。

关键特性:

• 单图驱动: 仅需1张初始角色图像+文本提示即可生成定制化内容
• 高一致性: 通过先进DiT架构保障生成图像始终稳定呈现角色核心特征
• 风格多样性: 支持写实/动漫/卡通/吉卜力等多艺术风格无缝切换
• 开源兼容: 提供代码、预训练权重，与Flux.1模型完美融合并支持二次开发

应用前景:
• 游戏与动画领域: 缩短角色资产生成周期，提升3D建模生产效率
• 虚拟偶像与元宇宙: 构建多维度交互体验，实现角色动态定制化的突破
• 品牌营销: 助力打造专属视觉形象 IP，增强用户互动粘性
• 将推动角色生成技术在艺术设计、影视制作等领域的深度应用

值得注意的是，版权与伦理问题仍需重点关注。AIbase指出，腾讯未来需完善模型输出监管机制，在提升创作自由度的同时保障内容的合法性和安全性。

即日起开发者可通过以下渠道获取资源：
Hugging Face Demo: 访问链接
GitHub项目页: 查看详情
研究论文: 学术资料

刚刚，豆包1.5·深度思考模型上线，特供「视觉版本」，大模型多模态推理的时代真来了

发表评论

原文链接：
刚刚，豆包1.5·深度思考模型上线，特供「视觉版本」，大模型多模态推理的时代真来了

1. 豆包大模型家族重磅升级
火山引擎发布「豆包1.5・深度思考模型」，包含语言版（Doubao-1.5-thinking-pro）和视觉版（Doubao-1.5-thinking-pro-vision）。语言版在数学推理、编程竞赛、科学推理等领域表现突出，视觉版支持多模态交互，能结合图像和文本进行深度分析。

2. 多模态能力成为标配
视觉版模型具备强大的视觉理解能力，可处理复杂任务如医疗影像分析、交通事故责任判定等。例如，能通过航拍图识别青海大柴旦翡翠湖，或协助医生分析CT影像生成初步诊断建议。

3. 文生图模型3.0突破
豆包文生图模型升级至3.0版本，实现三大突破：精准的中文小字排版、实拍级图像生成效果、2K高清直出。在权威榜单中跻身全球第一梯队，尤其在海报设计和人物生成上表现优异。

4. 视觉理解模型增强
新增3D定位和视频搜索能力，支持宠物监控等场景。例如，可快速定位视频中宠物的活动片段，毫秒级返回语义相关结果。

5. 生态工具与解决方案
火山引擎发布OS Agent解决方案、GUI Agent大模型（豆包1.5・UI-TARS）及AI云原生推理套件，助力企业低成本落地AI应用。UI-TARS模型在OS类测试中国内领先，支持图形界面智能交互。

6. 市场表现与技术领先
豆包大模型日均tokens调用量超12.7万亿，年增长106倍。火山引擎以46.4%市场份额居中国公有云大模型市场第一，技术能力覆盖复杂企业场景分析。

报名开启｜ICLR 2025新加坡，蚂蚁集团闭门研讨会、交流晚宴等你来！

发表评论

原文链接：
报名开启｜ICLR 2025新加坡，蚂蚁集团闭门研讨会、交流晚宴等你来！

1. ICLR 2025 论文录取情况

ICLR 2025 共接收 11,565 份投稿，收录率为 32.08%，其中 Spotlight 和 Oral Presentation 占比约 5.1%。蚂蚁集团表现亮眼，17 篇论文被收录，涵盖具身智能、强化学习、大模型优化等前沿领域，其中 1 篇入选 Spotlight。

2. 蚂蚁集团活动亮点

– 闭门研讨会：4月25日举行，嘉宾包括蚂蚁集团CTO何征宇、清华/浙大学者，分享技术成果与招聘计划。

– 星河之夜晚宴：4月26日于新加坡市中心，提供学术交流与海鲜盛宴。

– 展台互动：4月24-26日设展（Singapore EXPO Hall2 C10），可对话技术团队并探索职业机会。

3. 参与方式

扫描二维码预约活动，报名成功后将通过微信/邮件联系。蚂蚁集团诚邀技术先锋共话AI未来！

（注：原文链接及嘉宾头衔等细节已简化，核心信息保留并突出显示。）

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

发表评论

原文链接：
CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

1. 研究背景与成果
南洋理工大学与商汤科技联合提出视频抠图新方法MatAnyone，由博士生杨沛青（CVPR/NeurIPS等多篇顶会论文作者）主导，周尚辰教授与吕建勤教授指导。该方法突破复杂场景下发丝级细节与语义稳定性的挑战，相关论文及代码已开源。

2. 核心创新点
• 目标指定型抠图：仅需首帧掩膜标注，即可全视频稳定追踪目标
• 区域自适应记忆融合：动态区分变化区域（边缘依赖当前帧/主干保留记忆）
• 共头监督策略：直接利用分割数据优化抠图主头，提升语义稳定性
• 自建高质量数据集：VM800训练集（规模翻倍）与YouTubeMatte测试集（难度升级）

3. 技术优势对比
• vs 无辅助方法（如RVM）：避免多目标混淆（如背景行人误抠）
• vs 辅助引导方法（如MaGGIe）：仅需单帧标注，降低人工成本
• 视频抠图 vs 视频分割：额外预测透明度（alpha），要求更高细节精度

4. 应用场景
• 通用视频抠图（影视/直播背景替换）
• 实例抠图（多人物中指定目标）
• 高精度迭代优化（广告/影视后期）

5. 实验表现
在VideoMatte/YouTubeMatte数据集上：
• MAD/MSE/dtSSD指标最优（语义及时序稳定性）
• Conn指标领先（视觉连贯性）
• 定性对比显示更优发丝细节与抗干扰能力

6. 未来方向
探索更高效训练策略、泛化数据构建及通用记忆机制，突破当前真实数据稀缺的限制。

联想展示 AI换脸防诈技术，精准识别 Deepfake伪造视频

发表评论

原文链接：
联想展示 AI换脸防诈技术，精准识别 Deepfake伪造视频

1. AI技术发展带来的双面影响
人工智能和大模型技术（如DeepSeek）快速普及，为生活带来便利的同时，AI换脸诈骗等滥用行为成为新型网络安全威胁，其隐蔽性和危害性引发两会代表呼吁立法整治。

2. 联想推出反诈技术解决方案
联想集团基于DeepSeek开源大模型开发“Deepfake深度伪造技术检测器”，具备96%准确率，可部署于AI PC本地运行，实时识别伪造视频/图像，已获四川省反诈中心等机构支持。

3. 技术原理与核心优势
• 采用深度学习算法分析人脸细微特征差异
• 5秒快速检测，支持跨平台运行（PC/手机/平板）
• 具备迭代升级能力，可应对Faceswap等新型伪造技术

4. 典型应用场景
• 在线会议实时身份验证
• 社交媒体虚假视频标记
• AI PC全场景风险预警

5. 社会价值与行业意义
该技术体现了联想“人本智能”理念，从个人防诈、企业风控到社会信任体系构建形成多维防护，贾朝晖强调需通过技术联盟应对这场”攻防拉锯战”。

AI2030

也许你也看到了AI的未来。

分类目录归档：国内

Manus AI整合图像生成功能，引领智能助手新趋势

宝马中国宣布新车型接入DeepSeek 含5系、全新X3

国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布

智谱与生数科技达成战略合作专注大模型联合创新

理想同学MindGPT 3.0上线：深度思考能力媲美DeepSeek

腾讯混元InstantCharacter开源，高度角色一致性、自定义姿势、样式和场景

刚刚，豆包1.5·深度思考模型上线，特供「视觉版本」，大模型多模态推理的时代真来了

报名开启｜ICLR 2025新加坡，蚂蚁集团闭门研讨会、交流晚宴等你来！

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

联想展示 AI换脸防诈技术，精准识别 Deepfake伪造视频