分类目录归档:资讯

世界上每天都在发生的变化

Google和微软推出免费AI视觉功能

原文链接:
Gemini Live’s screensharing feature is now free for Android users
by:Jay Peters

Google和微软推出免费AI视觉功能

Google宣布,其AI驱动的Gemini Live功能现在将免费提供给所有Android用户,通过Gemini应用即可使用。该功能允许AI查看并响应用户摄像头和屏幕上的内容。此前,该功能仅在Pixel 9和Samsung Galaxy S25设备上推出,并计划通过Gemini Advanced订阅提供给其他Android用户,但Google决定免费开放。

微软也宣布,其类似工具Copilot Vision现在在Edge浏览器中免费提供。用户可以通过视频了解Gemini Live的功能,例如在水族馆中使用摄像头让Gemini识别动物并分享信息。

Hugging Face收购了一家机器人公司

机器人前瞻4月15日消息,开源AI平台Hugging Face宣布正式进军机器人领域,收购法国机器人公司Pollen Robotics,计划通过开源方式将仿人机器人Reachy 2推向更广泛的应用场景。这项收购不仅是Hugging Face技术布局的延伸,更是其开源理念在实体机器人领域的一次大胆探索。

不同于传统的封闭式产品,这款机器人不仅能执行简单的操作任务,还开放了软硬件权限,允许开发者自由下载代码、修改软件结构和动手改进。

一、开源机器人:让技术变得可理解、可改造、可参与

Pollen Robotics的Reachy 2是一款外形轻巧、具有特色“虫眼”设计的人形机器人,配备两条灵活的机械臂,能够抓取水果、整理咖啡杯,甚至执行一些简单的家庭任务。Hugging Face的CEO Clément Delangue表示,“相比在电脑屏幕上聊天的AI,现实生活中执行实际任务的机器人,更需要获得用户的信任,并具备高度的透明性。”而开源正是实现这一点的关键。通过开源,用户可以了解机器人的原理、控制方式,也能更安心地将它引入家庭、工作等日常场景中。

这次合作的一个亮点是,Hugging Face不只是继续销售机器人本体,而是将其软硬件完全开放。代码可以自由下载和修改,硬件结构也提供详细设计图,用户可以用3D打印机自己制作替换零件。Pollen Robotics联合创始人Matthieu Lapeyre表示:“如果某个部件坏了,你可以自己打印一个新的;如果哪里不够完美,你也可以加点改进。”这意味着不止是大公司,任何人都能参与到机器人的改造和优化中,推进它不断进化。

AI行业的发展早已证明:开源是一种强大的推动力。无论是国内深度求索DeepSeek发布的AI模型,还是初创公司Physical Intelligence提出的机器人基础模型Pi0,开源都让更多研究者和开发者得以低门槛参与、共同进步。Hugging Face本身就是开源AI社区的重要推动者,如今他们把这种模式带入机器人领域,也希望实现类似的协同创新效果。

Clément Delangue表示:“你无法在开源中隐藏,也无法作弊。”这种透明的方式可以让技术真正朝着可靠、实用的方向发展。

▲Hugging Face人工智能与机器人研究工程师和Reachy 2 人形机器人。

二、Pollen Robotics:坚持开源理念的机器人开发团队

Pollen Robotics是一家成立于 2016 年的法国机器人初创公司,长期致力于服务型和社交型机器人的研发,尤其关注机器人在现实环境中的操作能力和人机交互体验。

Pollen Robotics一直秉持开源理念。其主打产品Reachy系列机器人,采用模块化设计,软件和硬件方案均可公开获取,支持用户自主下载、修改和升级。Reachy支持远程操控、AI 训练和语音交互,已经在教育、科研和开发等多个场景中获得应用。Pollen Robotics希望通过这种开放方式,降低机器人技术的使用门槛。

2023年,Pollen Robotics完成了240万欧元的种子轮融资,用于升级Reachy平台和扩展开源生态。这些资金来自法国公共投资银行Bpifrance及几位商业投资人。目前,Pollen正在开发面向企业用户的机器人解决方案,包括控制系统、AI平台和教学工具,计划以SaaS模式提供服务。这些举措与Hugging Face的开源战略高度契合。

▲Reachy 2是第一个专为开发AI和现实世界应用而设计的开源人形机器人。

结语:开源机器人,是一次从实验室走向社区的尝试

随着AI与硬件结合越来越紧密,机器人将成为AI技术走进现实世界的重要载体。这次合作为“机器人进入日常生活”这个宏大命题,提供了一个非常有趣的范例。

未来的机器人不再是高价、复杂、遥不可及的黑科技,而可能是“人人可造,人人可改”的社区产物。这正是Hugging Face想要实现的机器人未来,而我们也许正站在一个新起点上,迎接一个真正属于大众的机器人时代。

微软Copilot Studio新增“计算机使用”功能

原文链接:
Microsoft lets Copilot Studio use a computer on its own
by:Tom Warren

微软Copilot Studio新增“计算机使用”功能

微软本周为Copilot Studio启用了一项新的“计算机使用”功能,使AI代理能够与网站和桌面应用程序交互。这一功能类似于OpenAI的Operator或Claude的“计算机使用”功能,允许企业利用Copilot Studio构建AI代理,将网站和桌面应用视为自动化任务的工具。

通过点击按钮、选择菜单和在屏幕上输入字段,AI代理可以处理即使没有API直接连接的任务。这意味着如果一个人能使用某个应用,AI代理也能做到。

Copilot Studio能够创建自动化数据录入、市场调研甚至处理发票的AI代理。微软表示,这一新工具还能检测应用程序或网站中按钮和屏幕的变化,并继续工作而不会失败或中断。

微软本月早些时候在其消费者版Copilot中添加了类似的功能,称为“Actions”。“Actions”可以在后台执行任务,例如预订餐厅、购买活动门票或在线购物,而用户可以继续处理其他任务。不过,“Actions”体验目前仅限于部分合作伙伴,而Copilot Studio则可以自由与更多网站和应用合作。

OpenAI发布GPT-4.1系列模型及开发者API更新摘要

原文链接:

OpenAI promises new ChatGPT features this week – all the latest as Sam Altman
says ‘we’ve got a lot of good stuff for you’


by:
John-Anthony Disotto


OpenAI发布GPT-4.1系列模型及开发者API更新摘要

1. 核心发布内容
OpenAI正式推出专为开发者设计的GPT-4.1系列模型,包括GPT-4.1标准版、Mini版和Nano版,现已通过API开放使用。该系列专注于代码生成、指令跟随和百万token长文本理解三大核心能力。

2. 技术特性亮点
新模型被官方称为“最快且最经济”的版本,在API中表现优于GPT-4o。特别强化了指令理解精准度,减少了冗余输出,开发者实测反馈积极。但普通用户暂无法直接体验

3. 战略布局暗示
CEO Sam Altman通过推特预告本周可能持续发布重要更新。虽未现身发布会,但转发了用户关于GPT-4.1提升工作流程的实证。行业猜测这可能开启类似去年”12天连续发布”的节奏。

4. 生态影响观察
随着Google Gemini/DeepSeek等竞品追赶,GPT-4.1被视为确立新标准的尝试。其图像生成功能(如宠物拟人化)已助推ChatGPT日活用户超越Instagram/TikTok,但部分AI趋势引发争议。

5. 未解悬念
业界关注是否将推出Agentic AI等突破性功能,以及本周会否公布GPT-4o正式继任者。TechRadar等媒体将持续通过直播博客跟踪最新动态。

OpenAI新一代AI模型:隐形渗透数字生活的”基础设施”

原文链接:

Avoiding ChatGPT won’t keep OpenAI from infusing its AI models into your life


by:
Eric Hal Schwartz


<span style="font-weight:bold;color:#299E59;font-size:24px;">OpenAI新一代AI模型:隐形渗透数字生活的”基础设施”</span>

1. 隐形AI渗透
OpenAI发布专为开发者设计的GPT-4.1等新模型,这些模型将悄无声息地嵌入各类应用(如邮箱、待办清单、食谱软件),用户可能毫无察觉地日常使用AI。

2. 技术特性突破
新模型针对指令执行、编码和信息推理优化,具有更高速度与成本效益,适合资源有限的开发者实现智能功能(如自动分类开支、生成会议摘要)。

3. 从产品到基础设施
AI正转变为“数字 plumbing”——像Wi-Fi一样隐形存在,失败时才被注意。这种转变可能提升公众接受度,但模糊了”AI使用者”的定义。

4. 隐忧与争议
透明度缺失:多数应用不会主动披露使用AI,尤其基础功能场景
隐私边界模糊:智能预测功能可能演变为监控(如购物推荐)
技术垄断风险:数字生活将被少数不透明的底层模型塑造

5. 用户的两难选择
抵制AI将变得极其困难——要么彻底审查每个应用的用户协议,要么接受AI对数字世界的隐形改造

xAI旗下Grok即将推出记忆功能等多项更新 向主流AI工具看齐

原文链接:

Grok may start remembering everything you ask it to do, according to new reports


by:
Eric Hal Schwartz


xAI旗下Grok即将推出记忆功能等多项更新 向主流AI工具看齐

1. 核心功能升级
Grok将新增”记忆系统”,通过设置中的“Personalise with Memories”开关实现。该功能允许AI引用历史对话内容,例如提醒用户”我们之前讨论过这个吗?”,标志着从即时工具向长期助手的转变。

2. 用户隐私控制
记忆系统采用用户完全可控的设计,支持删除特定记忆或全部数据,这与行业标准一致,对建立工作/生活场景中的信任至关重要。

3. 竞品对标加速
xAI以“冲刺速度”推进更新,试图快速追平ChatGPT和Gemini在记忆、图像编辑等功能上的优势。部分用户已看到测试版记忆功能,但全面推送时间未定。

4. 多模态能力拓展
即将推出视觉功能(通过手机摄像头解析环境)、图像风格修改工具,以及Google Drive集成,增强艺术创作和办公场景适用性。

5. 战略转型信号
通过Grok Workspaces协作白板等更新,xAI正将产品从”毒舌问答机”重塑为严肃生产力工具。Grok 3.5版本即将发布,4.0计划年底推出。

6. 关键挑战
记忆系统的实际效用功能整合度将决定Grok能否突破”网红玩具”印象,成为用户真正的首选AI助手。

合成数据助力视频生成提速8.5倍,上海AI Lab开源AccVideo

原文链接:
合成数据助力视频生成提速8.5倍,上海AI Lab开源AccVideo


1. 研究背景与问题
扩散模型在视频生成中性能卓越,但传统方法(如HunyuanVideo)需大量推理步骤去噪,导致生成5秒720p视频耗时3234秒(单A100),存在效率瓶颈。

2. 创新解决方案
上海AI Lab提出AccVideo框架,通过合成数据集SynVid和高效蒸馏技术实现:
8.5倍加速:推理速度提升至教师模型的8.5倍
低资源训练:仅需8块A100训练12天(3.84万条合成数据)
质量保持:生成5秒720p视频质量与教师模型相当

3. 关键技术突破
3.1 SynVid数据集构建
利用教师模型生成高质量视频及去噪轨迹,避免传统蒸馏中的无效数据点问题,显著提升训练效率。
3.2 少步指导机制
通过5个关键扩散时间步学习噪声-视频映射,推理步数减少10倍(m=5)。
3.3 对抗训练策略
噪声感知判别器+时间步投影头设计,避免前向扩散操作,稳定提升生成质量。

4. 实验结果
– 定性对比显示伪影更少(如手部细节)
– 较CogVideoX1.5提升画面保真度和背景效果
– 文本匹配度优于HunyuanVideo(如复古SUV呈现)

5. 开源与影响
– 已集成ComfyUI并支持Lora
– 获Reddit等社区广泛关注
– 开源地址:github.com/aejion/AccVideo

AI诺曼底时刻的“技术破壁者”:九章云极DataCanvas公司亮相2025 AI算力产业大会

原文链接:
AI诺曼底时刻的“技术破壁者”:九章云极DataCanvas公司亮相2025 AI算力产业大会


1. AI技术重构全球格局:前沿技术如”存算一体””云边端协同”正推动智能制造、智慧城市等领域的突破性应用,2025 AI算力产业大会聚焦行业痛点。

2. 九章云极技术方案:提出”弹性调度+智能开发+资源普惠”全栈布局,核心产品包括:
弹性容器集群VKS:基于Serverless架构实现秒级扩缩容,降低50%集群成本
大模型工具Aladdin:提升4倍开发效率,降低75%算力成本
创新算力包:业内首创”按度计量”模式,实现供需动态平衡

3. 技术协同效应:VKS动态伸缩+算力包按量计费+Aladdin开发插件形成完整解决方案,特别适合科技企业快速迭代。

4. 未来愿景:以”算力+算法”双核驱动,构建”弹性、流动、共生”的算力网络生态,突破行业能力边界。

10万奖金×认知升级!OceanBase首届AI黑客松广发英雄帖,你敢来么?

原文链接:
10万奖金×认知升级!OceanBase首届AI黑客松广发英雄帖,你敢来么?


AI技术推动数据库智能化转型:从ChatGPT到GPT-4o的多模态跨越,揭示了数据质量决定智能高度的底层逻辑。OceanBase作为分布式数据库领军者,通过一体化架构(如HTAP混合负载、SQL+AI融合)重新定义AI原生数据库,实现交易与分析的无缝衔接。

OceanBase AI黑客松大赛启动:4月10日开启报名,由OceanBase与蚂蚁开源联合主办,设置10万奖池。赛事聚焦两大方向:1)以OceanBase为数据基座构建AI应用;2)探索OceanBase+AI生态共创(如与CAMEL AI、FastGPT等合作开发问答/诊断系统)。

参赛规则与激励:个人或团队(1-5人)需提交RFC+演示视频+PPT,评审标准包括创新性、技术挑战等。优胜者可获奖金、社区积分、线下展示机会及认证讲师资格。所有参赛者将获得技术导师全程支持。

资源支持:提供OceanBase官方文档、GitHub仓库、AI工作坊等学习资源,并开放专属技术论坛。大赛强调”技术共享,生态共创”,获奖作品将亮相2025 OceanBase开发者大会。

更长思维并不等于更强推理性能,强化学习可以很简洁

原文链接:
更长思维并不等于更强推理性能,强化学习可以很简洁


核心发现总结:

1. 强化学习训练导致长响应现象
研究揭示,当模型获得负奖励(答案错误)时,PPO算法会通过数学机制鼓励生成长响应,因为更长的回答能稀释每个token的惩罚,降低损失值。即使额外内容无助于解题,模型仍会”学习”这种策略。

2. 两阶段训练法的突破
提出两阶段强化学习策略
– 第一阶段:用高难度问题训练(响应变长)
– 第二阶段:用可解问题优化(响应缩短且准确度提升)
实验证明该方法能显著减少响应长度30%,同时保持或提高准确度。

3. 关键数据验证
– 简洁性与准确度正相关:短回答往往正确率更高
– 小数据集有效性:仅用4个问题训练即可提升模型性能
– 温度敏感性改善:后训练模型在零温度下表现更稳健

4. 理论机制解析
将推理问题建模为马尔可夫决策过程(MDP),揭示PPO损失函数与响应长度的动态关系。错误答案会触发”损失最小化”机制,导致响应自动延长,而非模型主动选择复杂推理。

5. 实际应用价值
该研究对降低大模型计算成本具有重大意义,同时指出当前强化学习存在的根本问题:模型优化目标是奖励最大化而非问题解决本身。