分类目录归档:AI技术

ChatGPT推出全新购物功能:对话式AI购物体验

原文链接:
I’ve seen ChatGPT’s new shopping features in action, and this could be the game
changer we’ve been waiting for
by:Graham Barlow

ChatGPT推出全新购物功能:对话式AI购物体验

1. 革新购物体验
ChatGPT新增购物功能,用户可直接在对话中完成商品搜索、比较和购买,告别传统多标签页比价模式。

2. 智能推荐系统
AI会根据用户需求生成可视化商品画廊,包含详细参数、价格和评测,支持通过自然语言进行产品对比和追问。

3. 当前商品类别
初期覆盖时尚、美妆、家居和电子产品四大消费品类,未来将扩展更多商户合作。

4. 中立推荐机制
OpenAI强调推荐结果非广告性质,所有商品独立筛选,目前服务完全无广告植入。

5. 使用方式
无需复杂操作,直接输入如“推荐400美元以下意式浓缩咖啡机”等自然语句即可触发购物功能,商品详情页含直达购买链接。

6. 开放计划
5月5日起向所有用户(包括未登录用户)开放该功能,初期商品选择有限但会持续优化。

Perplexity AI新增图像生成功能及多模型支持

原文链接:
Perplexity will make AI images for you, but ChatGPT is the one doing the work
by:Eric Hal Schwartz

Perplexity AI新增图像生成功能及多模型支持

1. 图像生成功能上线
Perplexity本周悄悄上线AI图像生成功能,免费用户每日可生成3张图像,Pro用户无限制。操作方式与ChatGPT类似,只需输入”生成…的图片”等指令即可。

2. 采用GPT-4.1模型
系统默认使用GPT-4.1模型生成图像(目前唯一可用模型),用户无需手动选择。测试显示其生成效果与ChatGPT高度相似。

3. 新增多模型支持
平台新增Grok 3和o4-mini模型选项,目前已支持Gemini 2.5 Pro、Claude 3.7、Sonar等7种模型,正在测试o3模型接入。

4. 平台发展战略
Perplexity采取”模型策展”策略,整合第三方优质模型而非自主开发,降低用户选择门槛,满足”提问-获取答案-附带图像”的轻量级需求场景。

5. 未来展望
图像生成功能将与语音助手结合,预计成为平台亮点功能。界面设计被评价为”可爱有趣”,增强了用户体验。

DeepMind音乐AI沙盒升级:Lyria 2模型与实时创作工具开放

原文链接:
Google has tuned up its AI Music Sandbox for musicians and producers
by:Eric Hal Schwartz

DeepMind音乐AI沙盒升级:Lyria 2模型与实时创作工具开放

1. 工具升级与开放
DeepMind为Music AI Sandbox引入Lyria 2 AI模型Lyria RealTime实时音乐制作工具,平台从专业用户扩展至影视游戏配乐创作者,降低使用门槛。

2. 核心功能亮点
Lyria 2支持高保真多流派音乐生成,RealTime功能允许用户通过虚拟工作室即兴合奏;提供Create(文字生成音乐)、Extend(续写片段)、Edit(风格转换)三大工具,支持文本指令调整作品情绪或流派。

3. 版权保护机制
所有生成内容均采用SynthID数字水印技术,防止AI作品被冒认为人类创作,应对音乐行业关于”真实性”的争议。

4. 行业影响定位
该工具并非替代传统创作,而是辅助灵感开发。专业音乐人(如Sidecar Tommy)已开始探索AI能力边界,但低质量输入仍会导致失败输出。

AI助力导盲犬/服务犬早期筛选准确率提升至80%

原文链接:
AI is better at picking which puppy will make a good guide dog than humans are
by:Graham Barlow

AI助力导盲犬/服务犬早期筛选准确率提升至80%

1. 预测突破
英国东伦敦大学研究发现,AI模型能以80%准确率预判6-12月龄幼犬是否适合成为导盲犬/服务犬,大幅降低训练后期的情感与经济成本。

2. 技术优势
通过分析训练师填写的犬只行为问卷,AI能识别人类易忽略的行为模式,包括性格、专注力等关键指标,实现早期精准筛选。

3. 国际合作
项目集结全球顶尖机构,包括历史最悠久的导盲犬训练中心The Seeing Eye及Netflix纪录片《狗狗的内心》中的Canine Companions团队。

4. 行业影响
AI不仅避免不合格犬只与训练师被迫分离的痛心局面,更为动物训练领域带来革命性工具,证明AI对人类社会的积极价值。

杰弗里·辛顿博士对AI发展的深度担忧与警示

原文链接:
The Godfather of AI is more worried than ever about the future of AI
by:Lance Ulanoff

杰弗里·辛顿博士对AI发展的深度担忧与警示

1. 奠基者的持续预警
作为神经网络生成式AI的奠基人,辛顿博士近两年持续警告AI快速发展可能引发严重后果。他坦言40年前未预料到技术进步如此迅猛,如今AI能力已远超摩尔定律的预测速度。

2. 失控风险的核心忧虑
辛顿担忧AI终将超越人类智能(AGI),届时系统可能产生自主意识并追求自身利益。他用”饲养虎崽”比喻当前AI——看似无害,但无法确保其成熟后的危险性。

3. 迫在眉睫的现实威胁
AI已显著提升黑客攻击能力,可能威胁银行/医院等关键设施。辛顿采取分散存款的应对措施,并悲观表示庆幸自己年迈,”可能错过最坏情况的发生”。

4. 监管缺失的产业批判
批评谷歌、Meta等科技巨头过度追求短期利益而忽视AI安全,同时指出政府监管严重滞后。其学生Ilya Sutskever曾因安全争议导致OpenAI人事动荡,侧面印证行业矛盾。

5. 人类历史的转折时刻
辛顿认为我们正面临前所未有的剧变节点,AI可能短期内彻底改变文明形态。尽管他避免陷入绝望,但承认这种变革规模”在情感上难以消化”。

LemonAI 推出实时音视频 AI 数字人模型 Slice Live

1. 核心技术创新:Slice Live采用先进Transformer模型,以每秒25帧速率实时渲染屏幕每个像素,实现面部表情、动作与语音的自然交互。用户仅需上传单张照片,即可快速生成高拟真数字人,无需复杂建模或额外数据处理。

2. 跨行业应用价值娱乐领域可创造虚拟偶像/历史人物实时对话体验;教育领域可通过虚拟导师或历史人物数字人提供沉浸式教学内容。

3. 未来发展规划:计划优化模型性能,拓展至AR/VR及元宇宙场景应用,同时强化隐私保护机制,确保用户数据与照片安全。

国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布

原文链接:
国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布

2025年4月25日,百度Create AI开发者大会在北京隆重举行,百度正式发布全新升级的文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体,标志着AI编程工具进入“智能驾驶”时代,程序员的核心工作从“写代码”转向“审代码”。

百度工程效能部总监臧志指出,AI是百度提升工程效率最重要的生产力来源,而Zulu智能体作为大模型能力与研发生产力的桥梁,具备四大核心突破:多模态编程支持(上传图片一键生成完整代码)、开发工具调用能力(自动搭建环境并适配JetBrains、VSCode等主流IDE)、上下文理解引擎(整合文心4.5与X1的推理能力),以及构建更开放的研发生态系统(通过MCP协议兼容主流工具链)。此外,实时预览代码效果功能进一步提升了开发效率。

后端开发场景中,Zulu可自动分析工程结构,无需人工指定即可生成多个接口和实现类文件(例如“增加支付功能”需求),并实现复杂工程重构速度从传统模式下的1天压缩至1分钟内完成,其效率提升能力已获得权威验证——80%开发者认为AI工具可显著提升效率(平均增幅35%),20%开发者体验效率提升超50%。同时,Zulu为零开发经验用户提供新范式支持,实现全自然语言开发网站、小游戏,真正开启“会说话就能编程”“图片秒变代码”的新时代。

截止目前,百度每日新增代码中由文心快码生成的比例已达40%以上,累计服务开发者突破760万。结合代码预测改写引擎新增的光标预测与多行智能改写功能,文心快码实现了从需求到调试、验证的全流程自动化生成,助力开发者摆脱重复劳动,真正成为“十倍工程师”。

智谱与生数科技达成战略合作 专注大模型联合创新

原文链接:
智谱与生数科技达成战略合作 专注大模型联合创新

智谱与生数科技达成战略合作
智谱与生数科技达成战略合作

4月27日,清华大学旗下的智谱(Z.ai)生数科技(shengshu.com)宣布达成重大战略合作,聚焦大语言模型和多模态生成模型的技术突破,共同推进国产大模型的产业落地。

合作涵盖四大领域:联合研发、产品联动、解决方案整合及行业协同。其中,在产品合作中,智谱将通过MaaS平台接入生数科技的Vidu API,整合视频生成技术,为开发者和企业客户提供更全面的服务支持。

双方还将针对政企服务、泛互联网、文化旅游、广告营销、动漫影视及广电媒体等垂直行业,打造多模态生成技术的高竞争力解决方案,推动AI应用的多元化与规模化落地。

联合研发方面,智谱GLM系列大模型与生数科技的多模态通用大模型形成技术协同。值得关注的是,智谱的开源视频生成模型“CogVideoX”已在GitHub获得超1万星标,展现了其技术领先性。双方将共同提升国产大模型的综合实力。

此次合作体现了清华系人工智能领军企业强强联合的成果,既强化了国产大模型的技术创新根基,也为其在重点行业的生态发展注入活力,凸显了中国AI产业的长效潜力与战略布局。

Google在反垄断诉讼中面临巨额罚款

原文链接:
Google is paying Samsung an ‘enormous sum’ to preinstall Gemini
by:Wes Davis

Google在反垄断诉讼中面临巨额罚款

Google每月向三星支付巨额费用以预装Gemini AI应用,这一行为在反垄断诉讼中被曝光。法官Amit Mehta已裁定Google的搜索引擎构成非法垄断,目前其律师正与司法部就潜在的罚款 severity 争执不下。

Google副总裁Peter Fitzgerald在周一的证词中表示,Google与三星的支付协议自1月起生效,正值三星推出Galaxy S25系列并将其Gemini AI设为默认AI助手。这一安排使三星的Bixby退居次位。

据The Information报道,Fitzgerald还透露,其他公司如Perplexity和微软曾试图与三星达成预装AI助手的协议,但Google的修改协议函仅在庭审前一周发送,且内部文件显示Google曾考虑更严格的分销协议,要求合作伙伴预装Gemini、Search和Chrome。

Bloomberg指出,Fitzgerald称Gemini协议为期两年,Google不仅每月支付固定费用,还与三星分享Gemini订阅收入。司法部律师David Dahlquist称固定月费为“巨额款项”,但具体数额未披露。

如果司法部得逞,Google可能被禁止未来达成默认预装协议,被迫出售Chrome并开放大部分Google搜索数据。Google则辩称只需放弃默认预装协议。

开源AI语音模型Dia突破情感表达界限,开启拟真情绪化语音新时代

原文链接:
The AI That Cried AAAAAAHHH!
by:Eric Hal Schwartz

开源AI语音模型Dia突破情感表达界限,开启拟真情绪化语音新时代

1. 情绪化语音突破
新型开源模型Dia突破传统AI语音友好平缓的局限,实现尖叫、大笑、咳嗽等强烈情绪表达,其技术关键在于精准模拟人类非对称发声模式。

2. 技术差异化优势
相比ElevenLabs等商业模型通过语调平滑避免机械感,Dia独创性地处理非语言行为的时间控制、音调调制和呼吸节奏,使”(咳嗽)”等标注成为表演的一部分。

3. 行业意义
标志着AI向情感智能竞赛迈进:未来客服需展现真诚歉意,教师需传递鼓励语气,游戏角色需表达真实情感,单一”正确内容”已不足够。

4. 团队背景
两名本科生(含现役军人)组成的Nari Labs团队在零资金条件下,成功开发出媲美商业产品的文本转语音系统。

5. 潜在争议
高度拟真的情感表达能力可能使AI更具说服力与操纵性,当情绪成为工具时可能引发伦理担忧,但同时也为创意表达(如恐怖故事演绎)开辟新可能。