作者归档:admin

Google和微软推出免费AI视觉功能

原文链接:
Gemini Live’s screensharing feature is now free for Android users
by:Jay Peters

Google和微软推出免费AI视觉功能

Google宣布,其AI驱动的Gemini Live功能现在将免费提供给所有Android用户,通过Gemini应用即可使用。该功能允许AI查看并响应用户摄像头和屏幕上的内容。此前,该功能仅在Pixel 9和Samsung Galaxy S25设备上推出,并计划通过Gemini Advanced订阅提供给其他Android用户,但Google决定免费开放。

微软也宣布,其类似工具Copilot Vision现在在Edge浏览器中免费提供。用户可以通过视频了解Gemini Live的功能,例如在水族馆中使用摄像头让Gemini识别动物并分享信息。

Hugging Face收购了一家机器人公司

机器人前瞻4月15日消息,开源AI平台Hugging Face宣布正式进军机器人领域,收购法国机器人公司Pollen Robotics,计划通过开源方式将仿人机器人Reachy 2推向更广泛的应用场景。这项收购不仅是Hugging Face技术布局的延伸,更是其开源理念在实体机器人领域的一次大胆探索。

不同于传统的封闭式产品,这款机器人不仅能执行简单的操作任务,还开放了软硬件权限,允许开发者自由下载代码、修改软件结构和动手改进。

一、开源机器人:让技术变得可理解、可改造、可参与

Pollen Robotics的Reachy 2是一款外形轻巧、具有特色“虫眼”设计的人形机器人,配备两条灵活的机械臂,能够抓取水果、整理咖啡杯,甚至执行一些简单的家庭任务。Hugging Face的CEO Clément Delangue表示,“相比在电脑屏幕上聊天的AI,现实生活中执行实际任务的机器人,更需要获得用户的信任,并具备高度的透明性。”而开源正是实现这一点的关键。通过开源,用户可以了解机器人的原理、控制方式,也能更安心地将它引入家庭、工作等日常场景中。

这次合作的一个亮点是,Hugging Face不只是继续销售机器人本体,而是将其软硬件完全开放。代码可以自由下载和修改,硬件结构也提供详细设计图,用户可以用3D打印机自己制作替换零件。Pollen Robotics联合创始人Matthieu Lapeyre表示:“如果某个部件坏了,你可以自己打印一个新的;如果哪里不够完美,你也可以加点改进。”这意味着不止是大公司,任何人都能参与到机器人的改造和优化中,推进它不断进化。

AI行业的发展早已证明:开源是一种强大的推动力。无论是国内深度求索DeepSeek发布的AI模型,还是初创公司Physical Intelligence提出的机器人基础模型Pi0,开源都让更多研究者和开发者得以低门槛参与、共同进步。Hugging Face本身就是开源AI社区的重要推动者,如今他们把这种模式带入机器人领域,也希望实现类似的协同创新效果。

Clément Delangue表示:“你无法在开源中隐藏,也无法作弊。”这种透明的方式可以让技术真正朝着可靠、实用的方向发展。

▲Hugging Face人工智能与机器人研究工程师和Reachy 2 人形机器人。

二、Pollen Robotics:坚持开源理念的机器人开发团队

Pollen Robotics是一家成立于 2016 年的法国机器人初创公司,长期致力于服务型和社交型机器人的研发,尤其关注机器人在现实环境中的操作能力和人机交互体验。

Pollen Robotics一直秉持开源理念。其主打产品Reachy系列机器人,采用模块化设计,软件和硬件方案均可公开获取,支持用户自主下载、修改和升级。Reachy支持远程操控、AI 训练和语音交互,已经在教育、科研和开发等多个场景中获得应用。Pollen Robotics希望通过这种开放方式,降低机器人技术的使用门槛。

2023年,Pollen Robotics完成了240万欧元的种子轮融资,用于升级Reachy平台和扩展开源生态。这些资金来自法国公共投资银行Bpifrance及几位商业投资人。目前,Pollen正在开发面向企业用户的机器人解决方案,包括控制系统、AI平台和教学工具,计划以SaaS模式提供服务。这些举措与Hugging Face的开源战略高度契合。

▲Reachy 2是第一个专为开发AI和现实世界应用而设计的开源人形机器人。

结语:开源机器人,是一次从实验室走向社区的尝试

随着AI与硬件结合越来越紧密,机器人将成为AI技术走进现实世界的重要载体。这次合作为“机器人进入日常生活”这个宏大命题,提供了一个非常有趣的范例。

未来的机器人不再是高价、复杂、遥不可及的黑科技,而可能是“人人可造,人人可改”的社区产物。这正是Hugging Face想要实现的机器人未来,而我们也许正站在一个新起点上,迎接一个真正属于大众的机器人时代。

微软Copilot Studio新增“计算机使用”功能

原文链接:
Microsoft lets Copilot Studio use a computer on its own
by:Tom Warren

微软Copilot Studio新增“计算机使用”功能

微软本周为Copilot Studio启用了一项新的“计算机使用”功能,使AI代理能够与网站和桌面应用程序交互。这一功能类似于OpenAI的Operator或Claude的“计算机使用”功能,允许企业利用Copilot Studio构建AI代理,将网站和桌面应用视为自动化任务的工具。

通过点击按钮、选择菜单和在屏幕上输入字段,AI代理可以处理即使没有API直接连接的任务。这意味着如果一个人能使用某个应用,AI代理也能做到。

Copilot Studio能够创建自动化数据录入、市场调研甚至处理发票的AI代理。微软表示,这一新工具还能检测应用程序或网站中按钮和屏幕的变化,并继续工作而不会失败或中断。

微软本月早些时候在其消费者版Copilot中添加了类似的功能,称为“Actions”。“Actions”可以在后台执行任务,例如预订餐厅、购买活动门票或在线购物,而用户可以继续处理其他任务。不过,“Actions”体验目前仅限于部分合作伙伴,而Copilot Studio则可以自由与更多网站和应用合作。

xAI旗下Grok即将推出记忆功能等多项更新 向主流AI工具看齐

原文链接:

Grok may start remembering everything you ask it to do, according to new reports


by:
Eric Hal Schwartz


xAI旗下Grok即将推出记忆功能等多项更新 向主流AI工具看齐

1. 核心功能升级
Grok将新增”记忆系统”,通过设置中的“Personalise with Memories”开关实现。该功能允许AI引用历史对话内容,例如提醒用户”我们之前讨论过这个吗?”,标志着从即时工具向长期助手的转变。

2. 用户隐私控制
记忆系统采用用户完全可控的设计,支持删除特定记忆或全部数据,这与行业标准一致,对建立工作/生活场景中的信任至关重要。

3. 竞品对标加速
xAI以“冲刺速度”推进更新,试图快速追平ChatGPT和Gemini在记忆、图像编辑等功能上的优势。部分用户已看到测试版记忆功能,但全面推送时间未定。

4. 多模态能力拓展
即将推出视觉功能(通过手机摄像头解析环境)、图像风格修改工具,以及Google Drive集成,增强艺术创作和办公场景适用性。

5. 战略转型信号
通过Grok Workspaces协作白板等更新,xAI正将产品从”毒舌问答机”重塑为严肃生产力工具。Grok 3.5版本即将发布,4.0计划年底推出。

6. 关键挑战
记忆系统的实际效用功能整合度将决定Grok能否突破”网红玩具”印象,成为用户真正的首选AI助手。

OpenAI新一代AI模型:隐形渗透数字生活的”基础设施”

原文链接:

Avoiding ChatGPT won’t keep OpenAI from infusing its AI models into your life


by:
Eric Hal Schwartz


<span style="font-weight:bold;color:#299E59;font-size:24px;">OpenAI新一代AI模型:隐形渗透数字生活的”基础设施”</span>

1. 隐形AI渗透
OpenAI发布专为开发者设计的GPT-4.1等新模型,这些模型将悄无声息地嵌入各类应用(如邮箱、待办清单、食谱软件),用户可能毫无察觉地日常使用AI。

2. 技术特性突破
新模型针对指令执行、编码和信息推理优化,具有更高速度与成本效益,适合资源有限的开发者实现智能功能(如自动分类开支、生成会议摘要)。

3. 从产品到基础设施
AI正转变为“数字 plumbing”——像Wi-Fi一样隐形存在,失败时才被注意。这种转变可能提升公众接受度,但模糊了”AI使用者”的定义。

4. 隐忧与争议
透明度缺失:多数应用不会主动披露使用AI,尤其基础功能场景
隐私边界模糊:智能预测功能可能演变为监控(如购物推荐)
技术垄断风险:数字生活将被少数不透明的底层模型塑造

5. 用户的两难选择
抵制AI将变得极其困难——要么彻底审查每个应用的用户协议,要么接受AI对数字世界的隐形改造

OpenAI发布GPT-4.1系列模型及开发者API更新摘要

原文链接:

OpenAI promises new ChatGPT features this week – all the latest as Sam Altman
says ‘we’ve got a lot of good stuff for you’


by:
John-Anthony Disotto


OpenAI发布GPT-4.1系列模型及开发者API更新摘要

1. 核心发布内容
OpenAI正式推出专为开发者设计的GPT-4.1系列模型,包括GPT-4.1标准版、Mini版和Nano版,现已通过API开放使用。该系列专注于代码生成、指令跟随和百万token长文本理解三大核心能力。

2. 技术特性亮点
新模型被官方称为“最快且最经济”的版本,在API中表现优于GPT-4o。特别强化了指令理解精准度,减少了冗余输出,开发者实测反馈积极。但普通用户暂无法直接体验

3. 战略布局暗示
CEO Sam Altman通过推特预告本周可能持续发布重要更新。虽未现身发布会,但转发了用户关于GPT-4.1提升工作流程的实证。行业猜测这可能开启类似去年”12天连续发布”的节奏。

4. 生态影响观察
随着Google Gemini/DeepSeek等竞品追赶,GPT-4.1被视为确立新标准的尝试。其图像生成功能(如宠物拟人化)已助推ChatGPT日活用户超越Instagram/TikTok,但部分AI趋势引发争议。

5. 未解悬念
业界关注是否将推出Agentic AI等突破性功能,以及本周会否公布GPT-4o正式继任者。TechRadar等媒体将持续通过直播博客跟踪最新动态。

Sam Altman或建社交网络挑战Elon Musk的X平台

原文链接:

OpenAI might build its own social network, and we think we know why


by:
Lance Ulanoff


Sam Altman或建社交网络挑战Elon Musk的X平台

1. 潜在竞争格局
Sam Altman据传正考虑在OpenAI基础上开发社交网络,可能直接与Elon Musk的Grok(基于X平台的AI服务)形成对抗。该项目尚处早期阶段,细节未明。

2. 创始人恩怨背景
此举可能源于Altman与Musk的长期矛盾——两人曾共同创立OpenAI,但Musk于2018年退出后多次批评OpenAI转向营利模式。此次传闻或更多是象征性对抗而非实质开发进展。

3. 数据战略价值
若成真,该社交网络的核心价值在于获取用户生成内容数据,用于训练下一代GPT模型。真实人类行为数据对AI进化至关重要。

4. 市场时机存疑
分析师认为最佳时机应是Musk收购Twitter引发混乱之际(当时催生了Mastodon等替代平台)。当前文本社交平台增长放缓,主流已转向TikTok/Instagram Reels等短视频平台

5. 象征意义大于实用
即便最终产品可能只是”又一个无人需要的微博类平台”,但作为向Musk示威的试验性举措,仍具有战略试探价值。

AI助力人类与海豚跨物种交流:DolphinGemma项目突破

原文链接:

Google’s new AI model could someday let you understand and talk to dolphins


by:
Eric Hal Schwartz


AI助力人类与海豚跨物种交流:DolphinGemma项目突破

1. 历史性突破
人类与海豚的交流长期处于单向状态,如今Google联合佐治亚理工学院和野生海豚项目(WDP)开发出AI模型DolphinGemma,首次实现海豚声音的识别与生成。

2. 数据基础
基于WDP自1985年以来收集的野生大西洋斑点海豚音频/视频数据,该模型采用Google开源的Gemma架构,通过SoundStream音频标记器实现海豚声音的预测(类似”海豚版自动补全”)。

3. 实时应用
轻量化模型可在Google Pixel手机运行,今夏已投入实地测试,通过防水设备实时识别声纹模式并标记关键序列。

4. 双向通信系统
CHAT系统创造性地建立人豚”共享语言”:为海豚喜爱的物体(如海草、丝巾)分配人工哨音,观察海豚是否模仿这些声音提出需求。

5. 未来计划
Google计划年内开源模型,虽暂不能实现复杂对话,但能高效分析多年音频数据。模型经调整后或可应用于其他海洋物种。

6. 跨物种交流延伸
类似技术已用于解码猪的情绪发声,但海豚因其高智商和社交性成为更受关注的交流对象,未来或实现航海时的简单”问路”。

迄今为止最大、最详细的哺乳动物脑连接图,详细展现海量神经元活动

原文链接:
迄今为止最大、最详细的哺乳动物脑连接图,详细展现海量神经元活动


1. 里程碑式研究成果
研究人员绘制了迄今最大、最详细的哺乳动物脑连接图,展示了小鼠脑组织一立方毫米内20万个脑细胞(含8.2万神经元)5亿突触4公里神经元线路的3D图谱,首次实现单神经元活动的大规模观测。

2. 技术突破与数据规模
通过切片成像(每片仅头发1/400厚)、AI标注及活动记录匹配,MICrONS项目团队在《Nature》发表8篇论文。数据规模远超人类同类图谱(1.6万神经元/1.5亿突触),被哈佛学者誉为“神经科学史无前例的成就”

3. 关键发现
验证了“同时放电的神经元更易连接”的神经理论,但发现该规则在皮层各区域适用性差异。首次揭示处理相似视觉特征的神经元会优先形成强连接。

4. 科学意义与展望
该图谱为研究视觉记忆存储机制等基础问题提供资源,覆盖小鼠大脑0.2%区域。团队计划扩展至全脑测绘,学者评价其“令人敬畏如观星空”的复杂性。

5. 数据开放
所有数据已在线公开,正被全球团队用于多项研究,推动连接组学发展。

聚焦人工智能-生物-工程交叉融合,一文综述即将到来的「技术创变」浪潮

原文链接:
聚焦人工智能-生物-工程交叉融合,一文综述即将到来的「技术创变」浪潮


1. 未来技术融合浪潮
人工智能、量子计算、纳米工程、CRISPR基因编辑等前沿技术正在崛起,尤其在合成生物技术、信息技术、纳米技术与工程技术的交叉领域,形成了”技术创变”浪潮。近期研究聚焦芯片技术与合成生物信息工程的融合,探索生物分子作为数据存储载体、混合半导体及下一代AI处理器的潜力。

2. 生物分子信息系统突破
基于核酸的生物分子有望成为生物芯片载体,其数据存储能力可能超越传统无机半导体技术。合成DNA/RNA通过特定编码可满足全球数据存储需求,在长期存储领域具有数量级突破潜力。

3. 半导体技术新方向
传统半导体面临摩尔定律瓶颈,而生物学与工程思维的融合带来新可能:
– 生物传感器/接口(如脑机接口)
– 生物集成技术(如核酸纳米存储)
– 生物启发计算(如神经形态计算)
连接组学研究将助力构建更高效的”电子大脑”。

4. 合成生物学革命
该领域通过AI/ML与电子技术融合实现突破:
活细胞计算:已实现全套布尔逻辑运算
DNA存储:超高密度与超长保存期
器官芯片:替代动物实验的微流控系统
机器学习在蛋白质设计(2024诺奖成果)和代谢通路设计中表现突出。

5. 生物智能的超越性
生物学在模拟信息处理问题优化方面具有天然优势,能突破传统计算的三大物理极限:
– 半导体尺度极限
– 能源消耗极限
– 信息带宽极限
35亿年进化的细胞计算能力可能带来量子计算级的变革。

核心展望
信息-生物-纳米-工程领域的融合将催生生命数字统一模型,其颠覆性影响不亚于传统计算的诞生。