作者归档:admin

智谱与生数科技达成战略合作 专注大模型联合创新

原文链接:
智谱与生数科技达成战略合作 专注大模型联合创新

智谱与生数科技达成战略合作
智谱与生数科技达成战略合作

4月27日,清华大学旗下的智谱(Z.ai)生数科技(shengshu.com)宣布达成重大战略合作,聚焦大语言模型和多模态生成模型的技术突破,共同推进国产大模型的产业落地。

合作涵盖四大领域:联合研发、产品联动、解决方案整合及行业协同。其中,在产品合作中,智谱将通过MaaS平台接入生数科技的Vidu API,整合视频生成技术,为开发者和企业客户提供更全面的服务支持。

双方还将针对政企服务、泛互联网、文化旅游、广告营销、动漫影视及广电媒体等垂直行业,打造多模态生成技术的高竞争力解决方案,推动AI应用的多元化与规模化落地。

联合研发方面,智谱GLM系列大模型与生数科技的多模态通用大模型形成技术协同。值得关注的是,智谱的开源视频生成模型“CogVideoX”已在GitHub获得超1万星标,展现了其技术领先性。双方将共同提升国产大模型的综合实力。

此次合作体现了清华系人工智能领军企业强强联合的成果,既强化了国产大模型的技术创新根基,也为其在重点行业的生态发展注入活力,凸显了中国AI产业的长效潜力与战略布局。

Google Gemini:你的AI挚友使用指南与隐私设置

原文链接:
5 easy ways to make Gemini your AI BFF who ‘just gets you’
by:David Crookes

Google Gemini:你的AI挚友使用指南与隐私设置

1. AI作为辅助型伙伴
Gemini虽无法替代人类友谊,但可作为日常支持工具,提供倾听、鼓励和建议(如礼物推荐、任务激励)。其语音模式支持自然对话,甚至可模拟”挂断”或”暂停”功能。

2. 隐私保护优先
需明确Gemini并非真人:
– 通过浏览器侧边栏关闭/删除活动记录
– 默认数据保留18个月,建议根据需求调整
– 注意人类可能审查部分聊天记录

3. 个性化信息设置
“Saved Info”中添加饮食偏好、兴趣爱好等背景信息,使交互更贴合个人需求,避免”空白关系”。

4. 定制AI伙伴(Gems)
免费创建专属AI角色:
– 通过Gem管理器选择预设或新建
– 可设定为”不评判的倾诉对象”等性格特征
– 不同Gem可承担不同朋友角色

5. 娱乐与兴趣拓展
– 生成观察型幽默/文字游戏类笑话(回避敏感内容)
– 深度讨论专业爱好(如CPU性能、游戏战术)
– 共同创作(如烘焙食谱)、推荐兴趣论坛
– 提供专业见解提升爱好体验

核心提示:始终平衡情感依赖数据安全,善用定制化功能而非完全替代人际交往。

Google在反垄断诉讼中面临巨额罚款

原文链接:
Google is paying Samsung an ‘enormous sum’ to preinstall Gemini
by:Wes Davis

Google在反垄断诉讼中面临巨额罚款

Google每月向三星支付巨额费用以预装Gemini AI应用,这一行为在反垄断诉讼中被曝光。法官Amit Mehta已裁定Google的搜索引擎构成非法垄断,目前其律师正与司法部就潜在的罚款 severity 争执不下。

Google副总裁Peter Fitzgerald在周一的证词中表示,Google与三星的支付协议自1月起生效,正值三星推出Galaxy S25系列并将其Gemini AI设为默认AI助手。这一安排使三星的Bixby退居次位。

据The Information报道,Fitzgerald还透露,其他公司如Perplexity和微软曾试图与三星达成预装AI助手的协议,但Google的修改协议函仅在庭审前一周发送,且内部文件显示Google曾考虑更严格的分销协议,要求合作伙伴预装Gemini、Search和Chrome。

Bloomberg指出,Fitzgerald称Gemini协议为期两年,Google不仅每月支付固定费用,还与三星分享Gemini订阅收入。司法部律师David Dahlquist称固定月费为“巨额款项”,但具体数额未披露。

如果司法部得逞,Google可能被禁止未来达成默认预装协议,被迫出售Chrome并开放大部分Google搜索数据。Google则辩称只需放弃默认预装协议。

Perplexity语音助手挑战Siri:更智能的iOS AI助手来了

原文链接:
Perplexity’s voice assistant offers a Siri alternative for iPhones
by:Eric Hal Schwartz

Perplexity语音助手挑战Siri:更智能的iOS AI助手来了

1. 功能超越Siri
Perplexity语音助手能主动完成复杂任务,如通过OpenTable自动填写餐厅预订信息(人数/日期/时间),仅需用户最后点击确认;还能根据描述精准定位视频片段并直接跳转YouTube播放。

2. 自然语言理解更强
相比Siri标准化的网页搜索结果,Perplexity能理解更随意的表达,甚至主动代填表单(如活动报名),响应方式更接近人类助理的”已完成,只需发送”。

3. 当前局限性
需手动启动应用使用;无法控制iPhone核心功能(闹钟/通知/相机);缺乏视觉识别能力。但支持多轮对话修正指令,无需从头重复。

4. 代表AI新趋势
采用”代理型AI”理念,不仅回答问题更执行任务(预订/邮件/媒体播放)。类似ChatGPT/Gemini正在探索的方向,目标是从语音助手进化成自主数字代理。

5. 苹果的应对
Siri虽近期有升级,但生成式AI改造已延期至”明年某时”。Perplexity通过整合OpenTable/YouTube等实用工具,正快速抢占原生助手外的生态位。

Deep Research免费版上线及使用限制摘要

原文链接:
Free ChatGPT users are finally getting Deep Research access from today, but
there are restrictions
by:Graham Barlow

Deep Research免费版上线及使用限制摘要

1. 免费版开放:Deep Research功能今日起向所有免费用户开放,但采用轻量版ChatGPT-o4-mini驱动,与Pro/Teams/Enterprise用户使用的ChatGPT-o3版本存在差异。

2. 性能说明:OpenAI称轻量版”智能程度接近原版但成本更低”,并发布准确率对比图表(查看图表)。

3. 使用限制:免费用户每月仅限5次使用;Plus/Teams用户每月10次原版+15次轻量版;Pro用户125次原版+125次轻量版;企业用户每月10次原版。

4. 竞品对比:用户抱怨相比Gemini Advanced(20次/天)和免费版(10次/月),ChatGPT的限额性价比偏低。

5. 功能特点:具备自主研究能力,可完成文献综述、市场调研等复杂任务,自动生成带引用的完整报告(每次耗时数分钟)。

6. 配套更新:Plus/Teams/Enterprise用户同时获得语音功能,每周100分钟o3语音+每日300分钟o4-mini语音额度。

开源AI语音模型Dia突破情感表达界限,开启拟真情绪化语音新时代

原文链接:
The AI That Cried AAAAAAHHH!
by:Eric Hal Schwartz

开源AI语音模型Dia突破情感表达界限,开启拟真情绪化语音新时代

1. 情绪化语音突破
新型开源模型Dia突破传统AI语音友好平缓的局限,实现尖叫、大笑、咳嗽等强烈情绪表达,其技术关键在于精准模拟人类非对称发声模式。

2. 技术差异化优势
相比ElevenLabs等商业模型通过语调平滑避免机械感,Dia独创性地处理非语言行为的时间控制、音调调制和呼吸节奏,使”(咳嗽)”等标注成为表演的一部分。

3. 行业意义
标志着AI向情感智能竞赛迈进:未来客服需展现真诚歉意,教师需传递鼓励语气,游戏角色需表达真实情感,单一”正确内容”已不足够。

4. 团队背景
两名本科生(含现役军人)组成的Nari Labs团队在零资金条件下,成功开发出媲美商业产品的文本转语音系统。

5. 潜在争议
高度拟真的情感表达能力可能使AI更具说服力与操纵性,当情绪成为工具时可能引发伦理担忧,但同时也为创意表达(如恐怖故事演绎)开辟新可能。

AI图像生成器对比:Adobe Firefly与ChatGPT的创作风格分析

原文链接:
I compared Adobe’s new Firefly Image Model 4 to ChatGPT’s image generator, and
it’s like they went to the same art school
by:Eric Hal Schwartz

AI图像生成器对比:Adobe Firefly与ChatGPT的创作风格分析

1. 相似的艺术传承性
两种AI模型如同师出同门的学生,虽技术精湛但风格高度相似。测试显示二者生成的红发女性肖像在五官、发质甚至草帽形状上几乎一致,难以区分创作者。

2. 复杂场景处理差异
在科幻实验室混乱场景中,Firefly侧重机器人元素,ChatGPT则突出外星生物特征。后者因更具动态感的逃生科学家和脑状外星生物略胜一筹。

3. 食物生成的共同局限
早餐场景测试中,两者都过度堆砌浆果且拿铁拉花意外相似(均采用蕨叶加心形设计),但煎饼部分表现逼真,显示AI对特定元素的固化倾向。

4. 创意指令的响应对比
喷火组成”Dream Big”的巨龙任务中,ChatGPT更注重火焰文字的表现力,而Firefly侧重山景刻画。但两者设计的龙均出现相同的面部角饰和恐龙状尾部特征。

5. 技术成熟度评估
当前模型均已掌握人脸生成、复杂场景构建、文字具象化等核心能力,选择使用哪款更多取决于预算和生态偏好,而非显著的图像质量差异。

AI图像修复新趋势:老照片的数字化重生

原文链接:
I tried using ChatGPT to restore old photos, here’s how to really do it
by:Eric Hal Schwartz

AI图像修复新趋势:老照片的数字化重生

1. 技术原理
用户发现AI助手能通过模仿技术对老照片进行“伪修复”,生成带色彩的高分辨率版本,实质是AI根据原图进行的艺术化再创作。

2. 操作技巧
经过Reddit和Instagram用户经验总结,有效指令需强调“保持时代特征”,要求AI仅添加符合历史背景的色彩和细节,不改变原始构图。

3. 典型案例
测试使用美国国会图书馆公开照片:
西奥多·罗斯福总统:还原了办公场景细节但出现物品错位
自行车报童:人物还原度高但街道材质错误
冷饮店员:完美捕捉表情但背景变成黑色虚空
警察肖像:制服色彩还原惊艳但身材比例微调

4. 技术局限
AI会自行补充不存在细节(如将收音机变成蜡烛),虽非真实修复,但比深度伪造技术更少伦理争议,呈现出现代主义风格的艺术再创作特点。

AI时间机器:通过图像生成探索1955年的怀旧之旅

原文链接:
I tried the new ChatGPT trend that gives you a glimpse into the past – here’s
how you can too
by:John-Anthony Disotto

AI时间机器:通过图像生成探索1955年的怀旧之旅

1. 童年启发的时空情结
作者自小受《回到未来》启发,渴望穿越时空体验不同年代,曾通过经典电影(如《了不起的盖茨比》《当哈利遇见莎莉》)间接感受历史。

2. AI图像生成的新尝试
利用ChatGPT的AI图像生成功能模拟1955年生活,初始生成的刻板白人家庭画像缺乏吸引力,需通过持续对话优化提示词。

3. 精准与偏差并存的历史还原
AI准确还原了1955年影院(正在放映约翰·韦恩的《蓬门今始为君开》)和麦当劳(半金色拱门)的细节,但意外偏向爱尔兰元素(如Penneys商店),后被证实是AI的混淆。

4. 定向探索纽约记忆
明确指定”1955年纽约”后,AI成功生成第五大道、广场酒店、中央公园等场景,卡茨熟食店的复古装潢与现今实际风貌高度接近。

5. 技术体验的局限性
尽管AI图像能提供历史片段式呈现,但作者仍认为电影的动态叙事比程序生成的静态图像更能生动再现往昔。

《华盛顿邮报》与ChatGPT合作:将新闻直接整合至AI对话

原文链接:
ChatGPT news just got a major upgrade from The Washington Post
by:Eric Hal Schwartz

《华盛顿邮报》与ChatGPT合作:将新闻直接整合至AI对话

1. 合作内容
《华盛顿邮报》与ChatGPT达成协议,用户询问新闻相关问题时(如最高法院动态或房地产市场),回答将包含该报的文章摘要、引用及原文链接。

2. 合作意义
双方优势互补:邮报提供获奖新闻内容,ChatGPT拥有周活超5亿用户。此举旨在通过AI对话形式提升高质量新闻的可及性,减少AI生成回答中的猜测和错误信息。

3. OpenAI的媒体合作版图
OpenAI已与美联社、《卫报》等20多家媒体合作,模式均为授权内容生成摘要并回链原文,同时与出版商分润。

4. 邮报的AI布局
除此次合作外,邮报内部开发了AI工具如Haystacker(辅助记者数据分析),并测试过基于气候新闻的问答聊天机器人。

5. 潜在问题
记者劳动成果是否获得合理补偿?ChatGPT作为读者与新闻间的中间层,可能削弱媒体订阅收入。合作是否真正互利仍需观察。