分类目录归档：大模型

科技公司强推AI功能引发用户不满

发表评论

原文链接：

From novelty to nuisance: The AI revolution no one wanted is sweeping all before
it

by:
Graham Barlow

科技公司强推AI功能引发用户不满

1. 微软Recall功能争议
微软重启备受争议的Recall功能，该功能每3秒截屏并允许AI搜索，被批为”安全噩梦“且”无人需要“的AI功能典型。

2. Garmin订阅模式惹众怒
Garmin将一次性购买产品转为订阅服务，用户担忧免费功能终将收费，被迫”离开平台或付费“才能使用完整服务。

3. AI泛滥引发反感
从手机、音箱到搜索引擎，AI功能被强制植入各类产品。Google的AI概览功能因干扰正常搜索遭诟病，用户怀念简洁的旧版搜索。

4. 用户对AI的真实需求
多数AI功能如Genmoji、文档助手最终被闲置，用户希望AI能作为可选工具而非强制存在，并警示科技公司勿重蹈Windows 97″Clippy助手“的覆辙。

5. 核心诉求
AI虽具变革潜力，但应遵循”用户主动选择“原则，科技公司不应将未经请求的AI功能强加于所有产品。

OpenAI多款AI模型性能对比测试摘要

发表评论

原文链接：

ChatGPT model matchup – I pitted OpenAI’s o3, o4-mini, GPT-4o, and GPT-4.5 AI
models against each other and the results surprised me

by:
Eric Hal Schwartz

OpenAI多款AI模型性能对比测试摘要

1. 模型阵容
OpenAI近期发布了两款新模型o3和o4-mini，与测试中的GPT-4.5及默认模型GPT-4o共同构成产品线。其中o3以卓越推理和图像解析能力著称，o4-mini则是经济高效的轻量版本。

2. 测试设计
通过视觉逻辑（数独）、视觉创意（诗歌）、语言学（翻译）和烹饪建议四类任务对比测试。特别关注日常场景下的表现，而非极限压力测试。

3. 数独测试
所有模型均能正确解题，但风格迥异：o3/o4-mini展示数学推导过程，GPT-4o/4.5采用对话式解释。面对错误题目时，GPT-4o异常生成全零答案表。

4. 诗歌创作
要求按字母顺序创作季节诗，o3是唯一不押韵的模型。GPT-4.5作品因富有魅力被特别展示，其他模型输出类似贺卡水平的常规诗句。

5. 烹饪建议
o3提供结构化菜谱表格，o4-mini给出简洁指南，GPT-4o方案意外简短。GPT-4.5表现突出，生成包含5道菜的完整菜单，其中芒果薄荷冰沙配方备受期待。

6. 文化翻译
在翻译”倾盆大雨”时，所有模型均识别到需文化适配，推荐”桶翻式大雨”的日文俗语。GPT-4o额外添加表情符号，GPT-4.5则详细解释直译的不可行性。

7. 总体评价
o3最精准分析型，o4-mini响应更快，GPT-4.5最拟人化，GPT-4o偏爱表情符号。日常使用中差异不大，但GPT-4.5在创意任务（如烹饪）表现尤为出色。

ChatGPT长期记忆功能的变革与隐忧

发表评论

原文链接：

ChatGPT can remember more about you than ever before – should you be worried?

by:
Becca Caddy

ChatGPT长期记忆功能的变革与隐忧

1. 记忆功能升级
2024年起，ChatGPT推出长期记忆功能，可自动从历史对话中提取用户偏好（写作风格、兴趣目标等），同时保留用户手动保存的”记忆片段”。该功能目前仅限Plus/Pro用户，因法规限制暂未在欧盟等地区开放。

2. 个性化利弊
记忆功能显著提升服务精准度（如根据健身目标推荐餐厅），但产品经理Rohan Sarin指出这可能引发情感依赖。OpenAI CEO直言该设计旨在通过”用户黏性”提升产品不可替代性。

3. 技术缺陷
AI缺乏人类的情景区分能力，可能混淆不同场景信息（如将临时兴趣转化为固定偏好）。专家警告”无法遗忘”的特性可能限制用户成长，且随机调取旧数据可能引发不适。

4. 安全隐患
数据科学家Julian Wiffen强调三大风险：实验性对话被留存、代码/敏感信息跨项目泄露、GDPR合规问题。尽管提供”临时聊天”和删除功能，但记忆机制仍缺乏透明度和精细控制。

5. 行业对比
不同AI产品采取差异化记忆策略：Gemini不保留对话记忆，Perplexity专注实时检索，而情感陪伴AI Replika则深度存储用户情感数据，反映各产品不同的商业目标。

6. 核心矛盾
记忆功能在提升效率的同时，本质是科技公司构建用户依赖的手段。当AI成为”比你自己更了解你”的第二大脑时，需警惕其背后商业逻辑对自主性的侵蚀。

音乐与技术的爱恨纠葛：AI时代的艺术真实性探讨

发表评论

原文链接：

Is AI bad for music or is it just another step in the auto-tune timeline?

by:
Eric Hal Schwartz

音乐与技术的爱恨纠葛：AI时代的艺术真实性探讨

1. 技术恐慌的历史循环
从合成器、鼓机到自动调音，每次新技术出现都引发”真实音乐终结”的担忧，但历史证明这些指控往往被夸大（如Cher成功运用auto-tune）。技术最终会融入创作，如同电吉他未取代原声吉他。

2. AI音乐的爆发式增长
法国平台Deezer报告显示，每日新增超2万首AI生成曲目（较数月前翻倍）。音乐产业本就微薄的版税分配面临机器人竞争，三大唱片公司已对Suno/Udio等AI平台提起侵权诉讼。

3. 工具本质的双重性
AI如同当年的采样技术或auto-tune，本质是中性工具。关键在于使用方式——可成为创作助手（解决和弦进行/风格实验），也可能沦为缺乏灵魂的电梯音乐模仿品。

4. 核心争议的转移
争论焦点应是AI的应用伦理而非全面禁止：需警惕作品被非法训练、利润分配不公，但也要看到其对资源匮乏创作者（如农村青少年）的赋能价值。

5. 人类创造力的不可替代性
AI能加速创作流程却无法注入灵魂。当前音乐同质化现象更多源于算法推荐和市场趋势，AI只是加剧而非创造了这一困境。

Midjourney图像编辑器重磅更新，新图层功能、智能选择工具

发表评论

原文链接：
Midjourney图像编辑器重磅更新，新图层功能、智能选择工具

Midjourney图像编辑器重大升级摘要

焕新用户界面：整合编辑与预览功能，操作流程更直观高效，支持Lightbox图库与外部图像统一编辑，显著降低创作门槛。

新增功能突破：图层功能与智能选择工具同步上线，大幅提升图像编辑的自由度与精准度，强化AI艺术创作的专业性。

审核系统革新：采用更智能的审核机制，在保障内容安全的同时优化用户体验，巩固领域领先地位。

用户群体覆盖：社交平台反馈显示新UI响应速度堪比专业软件，既为新人提供友好入门路径，又满足资深创作者的效率需求。

行业评价：分析机构AIbase强调此次升级通过统一交互体验与流畅度提升，重新定义了AI图像编辑的工作流程标准。

理想同学MindGPT 3.0上线：深度思考能力媲美DeepSeek

发表评论

原文链接：
理想同学MindGPT 3.0上线：深度思考能力媲美DeepSeek

理想汽车智能助手“理想同学”升级至MindGPT3.0，开启深度思考与智能交互新体验

近日，理想汽车宣布旗下智能助手“理想同学”完成重大升级，搭载的MindGPT3.0模型已全面上线并向用户开放。此次升级标志着企业在人工智能领域取得新突破，用户可享受更智能高效的交互服务。新模型在性能上达到行业顶尖水平，其深度思考能力可与DeepSeek-V3-0324（短思维链）及DeepSeek-R1（长思维链）媲美，凸显理想汽车AI技术的雄厚实力。

全新交互方式是本次升级亮点：支持直观展示结构化思维链，让用户清晰看到思考过程；具备反思再检索功能，能持续优化答案精度；对语音输入的理解与容错能力显著增强，即使不清晰指令也能精准识别。用户可通过手机App及网页版免费体验这些革新功能。

在复杂场景应用方面，MindGPT3.0通过优化任务规划能力，实现了更合理的多步骤指令执行。升级的工具生态扩展了实时股票查询和票务信息查询等实用功能，并通过连续对话优化使交互流畅度大幅提升。

针对用户痛点，理想汽车新增无关历史对话过滤功能。该功能可自主分析对话历史，剔除与当前问题无关的冗余信息，有效避免传统模型强行关联无效上下文的问题，显著提升回复精准度与用户体验。

腾讯混元InstantCharacter开源，高度角色一致性、自定义姿势、样式和场景

发表评论

原文链接：
腾讯混元InstantCharacter开源，高度角色一致性、自定义姿势、样式和场景

腾讯混元开源角色个性化框架InstantCharacter

腾讯混元团队正式开源新一代角色个性化框架InstantCharacter，其基于扩散变换器（DiT）架构打造，实现了角色特征一致性、图像生成质量与开放域可控灵活性的平衡，成为业界首个具备这一能力的框架。该工具允许开发者与创作者通过单一初始图像结合文本提示，生成多风格、多场景、多姿态的高质量角色图像，覆盖写实、动漫、吉卜力等多样化艺术风格。

核心创新在于采用可扩展变换器适配器架构，通过高效微调机制显著提升角色定制能力。相较于传统方法，其显著优势包括：保留角色特征的一致性同时增强生成图像多样性；强化文本提示对生成内容的可控性，为人工智能驱动的角色设计提供了全新解决方案。

关键特性:

• 单图驱动: 仅需1张初始角色图像+文本提示即可生成定制化内容
• 高一致性: 通过先进DiT架构保障生成图像始终稳定呈现角色核心特征
• 风格多样性: 支持写实/动漫/卡通/吉卜力等多艺术风格无缝切换
• 开源兼容: 提供代码、预训练权重，与Flux.1模型完美融合并支持二次开发

应用前景:
• 游戏与动画领域: 缩短角色资产生成周期，提升3D建模生产效率
• 虚拟偶像与元宇宙: 构建多维度交互体验，实现角色动态定制化的突破
• 品牌营销: 助力打造专属视觉形象 IP，增强用户互动粘性
• 将推动角色生成技术在艺术设计、影视制作等领域的深度应用

值得注意的是，版权与伦理问题仍需重点关注。AIbase指出，腾讯未来需完善模型输出监管机制，在提升创作自由度的同时保障内容的合法性和安全性。

即日起开发者可通过以下渠道获取资源：
Hugging Face Demo: 访问链接
GitHub项目页: 查看详情
研究论文: 学术资料

AI大时代凝聚青年智慧，2025WAIC云帆奖持续报名中

发表评论

原文链接：
AI大时代凝聚青年智慧，2025WAIC云帆奖持续报名中

2025 WAIC云帆奖全球报名开启：面向全球青年AI人才，旨在汇聚推动AI发展的创新力量，涵盖基础理论、产业实践、跨学科及开源生态等领域。

奖项亮点：

1. 学术影响力跃升：获奖者将获得国际曝光、高校/科研机构推荐及顶尖学术合作机会。

2. 百万级科研加速：提供高额项目资助、算力支持及成果推广资源。

3. 产业生态赋能：对接企业与创业支持，推动产学研融合。

奖项设置：

1. 璀璨明星（35岁以下）：表彰AI领军人才，注重技术研发、产业整合及生态贡献，每年10名。

2. 明日之星（30岁以下）：挖掘新锐潜力人才，侧重创新规划与实践精神，每年15名。

评选标准：

1. 璀璨明星：综合评估项目影响力、代表性成果、学术/产业贡献及社会认可度。

2. 明日之星：重点考察创新潜力、项目成果、技术影响力及团队协作能力。

时间安排：报名截止6月16日，颁奖于WAIC大会期间。

联系方式：璀璨明星联系阮老师（ruanxianqun@jiqizhixin.com），明日之星联系段老师（duanchenyang@pjlab.org.cn）。

好玩！复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG！挑战3万Token极限

发表评论

原文链接：
好玩！复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG！挑战3万Token极限

SVG（可缩放矢量图形）因其可缩放性和清晰度，广泛应用于网页设计、品牌标识、用户界面设计及教育材料等领域。然而，创建SVG图形需要专业技能，对非专业人士存在门槛，因此开发自动化工具至关重要。

现有方法存在局限性：基于优化的方法计算开销大且输出结构冗余；自回归方法受限于上下文窗口长度和复杂SVG数据匮乏，难以生成复杂内容。

OmniSVG通过参数化表达和预训练视觉语言模型（VLM），实现了高质量复杂SVG的生成，支持文本到SVG、图像到SVG及角色参考生成等多种模式，成为统一且灵活的解决方案。

项目亮点：

1. 首个端到端多模态复杂SVG生成框架，可处理长达3万个token的SVG，解决“坐标幻觉”问题，生成生动多彩的结果。

2. 开源MMSVG-2M数据集，包含200万个涵盖图标、插图、动漫角色等类型的SVG样本，推动SVG生成技术发展。

3. 实验表现优异，在文本转SVG和图像转SVG任务中，指令遵循性和美观性均优于现有最佳方法。

局限性：复杂样本生成时间较长，未来需提升模型对输入图像风格的鲁棒性。

项目影响力：发布当天成为Huggingface每日论文第一名，GitHub上线7天获1.3k star，受国外媒体广泛关注。

Alpha世代的智能终端⾰命：顾嘉唯⽤物理世界AI-OS重构「世界即交互界⾯」

发表评论

原文链接：
Alpha世代的智能终端⾰命：顾嘉唯⽤物理世界AI-OS重构「世界即交互界⾯」

1. AI技术范式变革
商汤技术交流日上，灵宇宙创始人顾嘉唯提出AI正从”工具属性”向”伙伴属性”跃迁，人机交互从”人适应机器”转变为”机器理解世界”，下一代教育将突破填鸭式教学，实现”世界即课堂，万物皆教材”的个性化学习。

2. 灵宇宙核心产品
推出AI学伴终端「Ling!」（小方机），搭载LingOS系统，构建4D空间交互智能的”世界模型”，通过多模态感知实现”行万里路”的探索式学习。其前代产品「Luka卢卡」已售千万台，专注桌面绘本交互阅读，形成”读万卷书+行万里路”的双终端矩阵。

3. 技术突破点
• 点物赋灵：通过AI-OS为物理实体赋予智能属性，实现达尔文解说恐龙玩具等场景化教学
• 无感交互：儿童可直接呼唤AI角色伙伴，无需操作APP界面
• 具身认知：将博物馆展品、自然景观转化为动态教学场景，解决”走马观花”痛点

4. 行业愿景
定义PhysicalAI时代的人机交互范式，构建类似iOS的物理世界AI操作系统（LingOS），让硬件隐形化，最终实现”万物有灵”的AGI终极形态。创始人预测教育电子行业将迎来”iPhone时刻”级变革。

5. 创始人背景
顾嘉唯拥有10年AI机器人研发经验，曾任职微软、百度研究院，创办物灵科技并投资多个全球知名机器人项目。灵宇宙成立半年完成三轮融资，主打”定义交互而非制造硬件”的核心理念。

AI2030

也许你也看到了AI的未来。

分类目录归档：大模型

科技公司强推AI功能引发用户不满

OpenAI多款AI模型性能对比测试摘要

ChatGPT长期记忆功能的变革与隐忧

音乐与技术的爱恨纠葛：AI时代的艺术真实性探讨

Midjourney图像编辑器重磅更新，新图层功能、智能选择工具

理想同学MindGPT 3.0上线：深度思考能力媲美DeepSeek

腾讯混元InstantCharacter开源，高度角色一致性、自定义姿势、样式和场景

AI大时代凝聚青年智慧，2025WAIC云帆奖持续报名中

好玩！复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG！挑战3万Token极限

Alpha世代的智能终端⾰命：顾嘉唯⽤物理世界AI-OS重构「世界即交互界⾯」