分类目录归档:国外

国外人工智能发展

OpenAI发布o3和o4-mini新模型:智能工具整合与多模态推理能力升级

原文链接:

ChatGPT just got a massive upgrade that takes it to the next level – here are
the 3 biggest changes


by:
Graham Barlow


OpenAI发布o3和o4-mini新模型:智能工具整合与多模态推理能力升级

1. 全层级开放与性能飞跃
新推出的o3和o4-mini模型已向Pro/Plus/Team及免费用户开放,推理速度显著超越旧版(如ChatGPT o3-mini/o1),支持智能选择工具链完成复杂任务。

2. 全工具链自主决策能力
模型可自动调用并组合所有ChatGPT工具(网页浏览/Python编码/图像分析/文件搜索等),实时展示推理步骤与工具选择逻辑,最终生成带完整来源的详细报告。

3. 突破性图像推理功能
首次实现图像融入思维链(如识别车型并预测五年后价值),标志着多模态AI的重大进步。

4. 用户体验升级
实测显示响应速度与答案深度同步提升,o3模型因平衡速度与细节成为Plus用户首选,智能工具选择机制被赞为”自然进化”。

5. 使用方式说明
付费用户可通过LLM菜单选择模型,免费用户需点击“Reason”按钮激活o4-mini(有次数限制),o3-pro版本将于数周后面世。

用户对AI礼貌用语引发的成本与效益争议

原文链接:

ChatGPT spends ‘tens of millions of dollars’ on people saying ‘please’ and
‘thank you’, but Sam Altman says it’s worth it


by:
John-Anthony Disotto


用户对AI礼貌用语引发的成本与效益争议

1. 礼貌用语的高昂成本
OpenAI CEO萨姆·奥尔特曼透露,用户对AI说”请”和”谢谢”导致公司每年多支出数千万美元电费,但认为这是”值得的花费”。

2. 普遍存在的AI礼貌现象
调查显示70%用户会对AI保持礼貌,其中12%是出于对”机器人起义”的担忧。这种社交习惯正转化为实质性能源消耗。

3. 环境代价的隐性危机
每个AI交互请求都依赖耗能巨大的服务器运行,但公众普遍缺乏对单条消息环境成本的认知。

4. 礼貌带来的潜在价值
研究表明礼貌提示词能提升回答质量减少偏见,未来AI可能发展出对礼貌用语的差异化响应机制。

5. 核心争议
用户体验优化环境可持续性之间需要权衡:礼貌交互虽提升服务质量,但其能源代价是否合理仍存疑。

AI语音助手功能升级:Claude即将推出”语音模式”

原文链接:

Claude tipped to get its answer to ChatGPT’s Advanced Voice Mode soon – is
adding an AI voice to a chatbot yet another tick box exercise?


by:
John-Anthony Disotto


AI语音助手功能升级:Claude即将推出”语音模式”

1. 功能发布:据报道,Anthropic公司的AI助手Claude计划本月推出名为”语音模式”的新功能,将提供三种不同音色(暂定名:Airy/Mellow/Buttery)供用户选择。

2. 行业现状:当前ChatGPT和Gemini均已推出类似语音交互功能(Advanced Voice Mode/Gemini Live),使得AI对话体验更自然流畅。

3. 同质化担忧:业界观察到AI产品功能趋同现象——从推理模型、图像生成到现在的语音模式,各厂商都在快速复制竞争对手的功能创新。

4. 用户视角:作者质疑这种”打勾式创新”的实际价值,呼吁企业突破现有模式开发真正差异化的功能,而非简单重复市场竞争。

5. 未来期待:虽然对Claude新功能持观望态度,但仍希望其能为AI语音助手领域带来实质性突破,而非沦为又一款雷同产品。

ChatGPT推出AI图片库功能:集中管理生成图像

原文链接:

ChatGPT gets a useful new home for your AI images – and it could be the first
step towards OpenAI’s new Instagram rival


by:
David Nield


ChatGPT推出AI图片库功能:集中管理生成图像

1. 全新图片库功能上线
OpenAI为ChatGPT推出专属图片库(Library),免费和付费用户均可使用,支持网页端和移动端同步,集中展示所有历史生成的AI图像。

2. 核心功能特点
自动归档:跨对话记录自动收集生成的所有图片
基础编辑:支持点击图片进行下载和编辑
联动删除:删除聊天记录时关联图片也会同步清除
• 当前暂缺图片搜索/筛选功能,但未来可能更新

3. 产品战略意义
• 解决用户此前需翻查历史对话找图片的痛点
• 或为OpenAI布局AI社交平台铺路(类似Instagram的AI内容社区)
• 可能通过用户图片数据强化模型训练

4. 行业背景
正值AI图像生成技术爆发期(如DALL·E 3、人物手办化等趋势),该功能响应了用户对AI内容管理的强烈需求。

Google和微软推出免费AI视觉功能

原文链接:
Gemini Live’s screensharing feature is now free for Android users
by:Jay Peters

Google和微软推出免费AI视觉功能

Google宣布,其AI驱动的Gemini Live功能现在将免费提供给所有Android用户,通过Gemini应用即可使用。该功能允许AI查看并响应用户摄像头和屏幕上的内容。此前,该功能仅在Pixel 9和Samsung Galaxy S25设备上推出,并计划通过Gemini Advanced订阅提供给其他Android用户,但Google决定免费开放。

微软也宣布,其类似工具Copilot Vision现在在Edge浏览器中免费提供。用户可以通过视频了解Gemini Live的功能,例如在水族馆中使用摄像头让Gemini识别动物并分享信息。

微软Copilot Studio新增“计算机使用”功能

原文链接:
Microsoft lets Copilot Studio use a computer on its own
by:Tom Warren

微软Copilot Studio新增“计算机使用”功能

微软本周为Copilot Studio启用了一项新的“计算机使用”功能,使AI代理能够与网站和桌面应用程序交互。这一功能类似于OpenAI的Operator或Claude的“计算机使用”功能,允许企业利用Copilot Studio构建AI代理,将网站和桌面应用视为自动化任务的工具。

通过点击按钮、选择菜单和在屏幕上输入字段,AI代理可以处理即使没有API直接连接的任务。这意味着如果一个人能使用某个应用,AI代理也能做到。

Copilot Studio能够创建自动化数据录入、市场调研甚至处理发票的AI代理。微软表示,这一新工具还能检测应用程序或网站中按钮和屏幕的变化,并继续工作而不会失败或中断。

微软本月早些时候在其消费者版Copilot中添加了类似的功能,称为“Actions”。“Actions”可以在后台执行任务,例如预订餐厅、购买活动门票或在线购物,而用户可以继续处理其他任务。不过,“Actions”体验目前仅限于部分合作伙伴,而Copilot Studio则可以自由与更多网站和应用合作。