分类目录归档:资讯

世界上每天都在发生的变化

理想同学MindGPT 3.0上线:深度思考能力媲美DeepSeek

原文链接:
理想同学MindGPT 3.0上线:深度思考能力媲美DeepSeek


近日,理想汽车宣布旗下智能助手“理想同学”完成重大升级,搭载的MindGPT3.0模型已全面上线并向用户开放。此次升级标志着企业在人工智能领域取得新突破,用户可享受更智能高效的交互服务。新模型在性能上达到行业顶尖水平,其深度思考能力可与DeepSeek-V3-0324(短思维链)及DeepSeek-R1(长思维链)媲美,凸显理想汽车AI技术的雄厚实力。

全新交互方式是本次升级亮点:支持直观展示结构化思维链,让用户清晰看到思考过程;具备反思再检索功能,能持续优化答案精度;对语音输入的理解与容错能力显著增强,即使不清晰指令也能精准识别。用户可通过手机App及网页版免费体验这些革新功能。

在复杂场景应用方面,MindGPT3.0通过优化任务规划能力,实现了更合理的多步骤指令执行。升级的工具生态扩展了实时股票查询票务信息查询等实用功能,并通过连续对话优化使交互流畅度大幅提升。

针对用户痛点,理想汽车新增无关历史对话过滤功能。该功能可自主分析对话历史,剔除与当前问题无关的冗余信息,有效避免传统模型强行关联无效上下文的问题,显著提升回复精准度与用户体验。

腾讯混元InstantCharacter开源,高度角色一致性、自定义姿势、样式和场景

原文链接:
腾讯混元InstantCharacter开源,高度角色一致性、自定义姿势、样式和场景


腾讯混元开源角色个性化框架InstantCharacter

腾讯混元团队正式开源新一代角色个性化框架InstantCharacter,其基于扩散变换器(DiT)架构打造,实现了角色特征一致性、图像生成质量与开放域可控灵活性的平衡,成为业界首个具备这一能力的框架。该工具允许开发者与创作者通过单一初始图像结合文本提示,生成多风格、多场景、多姿态的高质量角色图像,覆盖写实、动漫、吉卜力等多样化艺术风格。

核心创新在于采用可扩展变换器适配器架构,通过高效微调机制显著提升角色定制能力。相较于传统方法,其显著优势包括:保留角色特征的一致性同时增强生成图像多样性;强化文本提示对生成内容的可控性,为人工智能驱动的角色设计提供了全新解决方案。

关键特性:

单图驱动: 仅需1张初始角色图像+文本提示即可生成定制化内容
高一致性: 通过先进DiT架构保障生成图像始终稳定呈现角色核心特征
风格多样性: 支持写实/动漫/卡通/吉卜力等多艺术风格无缝切换
开源兼容: 提供代码、预训练权重,与Flux.1模型完美融合并支持二次开发

应用前景:
游戏与动画领域: 缩短角色资产生成周期,提升3D建模生产效率
虚拟偶像与元宇宙: 构建多维度交互体验,实现角色动态定制化的突破
品牌营销: 助力打造专属视觉形象 IP,增强用户互动粘性
• 将推动角色生成技术在艺术设计、影视制作等领域的深度应用

值得注意的是,版权与伦理问题仍需重点关注。AIbase指出,腾讯未来需完善模型输出监管机制,在提升创作自由度的同时保障内容的合法性和安全性。

即日起开发者可通过以下渠道获取资源:
Hugging Face Demo: 访问链接
GitHub项目页: 查看详情
研究论文: 学术资料

AI大时代凝聚青年智慧,2025WAIC云帆奖持续报名中

原文链接:
AI大时代凝聚青年智慧,2025WAIC云帆奖持续报名中


2025 WAIC云帆奖全球报名开启:面向全球青年AI人才,旨在汇聚推动AI发展的创新力量,涵盖基础理论、产业实践、跨学科及开源生态等领域。

奖项亮点

1. 学术影响力跃升:获奖者将获得国际曝光、高校/科研机构推荐及顶尖学术合作机会。

2. 百万级科研加速:提供高额项目资助、算力支持及成果推广资源。

3. 产业生态赋能:对接企业与创业支持,推动产学研融合。

奖项设置

1. 璀璨明星(35岁以下):表彰AI领军人才,注重技术研发、产业整合及生态贡献,每年10名。

2. 明日之星(30岁以下):挖掘新锐潜力人才,侧重创新规划与实践精神,每年15名。

评选标准

1. 璀璨明星:综合评估项目影响力、代表性成果、学术/产业贡献及社会认可度。

2. 明日之星:重点考察创新潜力、项目成果、技术影响力及团队协作能力。

时间安排:报名截止6月16日,颁奖于WAIC大会期间。

联系方式:璀璨明星联系阮老师(ruanxianqun@jiqizhixin.com),明日之星联系段老师(duanchenyang@pjlab.org.cn)。

好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限

原文链接:
好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限


SVG(可缩放矢量图形)因其可缩放性和清晰度,广泛应用于网页设计、品牌标识、用户界面设计及教育材料等领域。然而,创建SVG图形需要专业技能,对非专业人士存在门槛,因此开发自动化工具至关重要。

现有方法存在局限性:基于优化的方法计算开销大且输出结构冗余;自回归方法受限于上下文窗口长度和复杂SVG数据匮乏,难以生成复杂内容。

OmniSVG通过参数化表达和预训练视觉语言模型(VLM),实现了高质量复杂SVG的生成,支持文本到SVG、图像到SVG及角色参考生成等多种模式,成为统一且灵活的解决方案。

项目亮点:

1. 首个端到端多模态复杂SVG生成框架,可处理长达3万个token的SVG,解决“坐标幻觉”问题,生成生动多彩的结果。

2. 开源MMSVG-2M数据集,包含200万个涵盖图标、插图、动漫角色等类型的SVG样本,推动SVG生成技术发展。

3. 实验表现优异,在文本转SVG和图像转SVG任务中,指令遵循性和美观性均优于现有最佳方法。

局限性:复杂样本生成时间较长,未来需提升模型对输入图像风格的鲁棒性。

项目影响力:发布当天成为Huggingface每日论文第一名,GitHub上线7天获1.3k star,受国外媒体广泛关注。

Alpha世代的智能终端⾰命:顾嘉唯⽤物理世界AI-OS重构「世界即交互界⾯」

原文链接:
Alpha世代的智能终端⾰命:顾嘉唯⽤物理世界AI-OS重构「世界即交互界⾯」


1. AI技术范式变革
商汤技术交流日上,灵宇宙创始人顾嘉唯提出AI正从”工具属性”向”伙伴属性”跃迁,人机交互从”人适应机器”转变为”机器理解世界”,下一代教育将突破填鸭式教学,实现”世界即课堂,万物皆教材”的个性化学习。

2. 灵宇宙核心产品
推出AI学伴终端「Ling!」(小方机),搭载LingOS系统,构建4D空间交互智能的”世界模型”,通过多模态感知实现”行万里路”的探索式学习。其前代产品「Luka卢卡」已售千万台,专注桌面绘本交互阅读,形成”读万卷书+行万里路”的双终端矩阵。

3. 技术突破点
点物赋灵:通过AI-OS为物理实体赋予智能属性,实现达尔文解说恐龙玩具等场景化教学
无感交互:儿童可直接呼唤AI角色伙伴,无需操作APP界面
具身认知:将博物馆展品、自然景观转化为动态教学场景,解决”走马观花”痛点

4. 行业愿景
定义PhysicalAI时代的人机交互范式,构建类似iOS的物理世界AI操作系统(LingOS),让硬件隐形化,最终实现”万物有灵”的AGI终极形态。创始人预测教育电子行业将迎来”iPhone时刻”级变革。

5. 创始人背景
顾嘉唯拥有10年AI机器人研发经验,曾任职微软、百度研究院,创办物灵科技并投资多个全球知名机器人项目。灵宇宙成立半年完成三轮融资,主打”定义交互而非制造硬件”的核心理念。

从国家级实验室前沿技术到聚焦能源智能化落地,中科类脑获国家级产业资本亿元投资

原文链接:
从国家级实验室前沿技术到聚焦能源智能化落地,中科类脑获国家级产业资本亿元投资


1. 能源AI赛道崛起与中科类脑的突破
中科类脑在能源AI领域完成技术到商业的深度突围,获得亿元级B轮融资,由中国移动旗下基金战略投资,跻身”AI国家队”。2024年能源行业大模型招标超80个,国家电网等央企加速AI融合。

2. 七年深耕能源智能化转型
成立于2017年的中科类脑,依托中科大类脑实验室技术,2019年战略转向能源赛道。在”双碳”政策驱动下,抓住电网智能化、新能源预测等需求,市场规模预计将达6384亿元。

3. 全栈技术构建行业壁垒
打造从算力支撑到场景应用的全栈方案,覆盖发输变配用全场景,AI项目复购率75%。自主研发能源多模态大模型,解决通用大模型在电力行业的适用性问题,训练效能达国际芯片80%。

4. 工程化能力与服务创新
建设多个智算中心积累核心工程能力,组建复合型”行业翻译官”团队,算法迭代周期缩短60%。通过开放合作战略,将能源AI能力复制到建材、水利等领域。

5. 商业化成果与未来展望
已服务100余座变电站,打造”算力-模型-应用”三层变现结构,标准化产品收入占比提升至55%。创始人表示将长期投入能源智能化,并逐步向工业制造场景延伸技术能力。

Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌

原文链接:
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌


1. 谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院的演讲中,回顾了 AI 近十五年的发展历程,重点介绍了谷歌在 Transformer、蒸馏、MoE 等技术上的奠基性贡献,并展望了 AI 的未来。

2. 神经网络和反向传播是深度学习革命的两大关键。2012 年,谷歌通过训练大型神经网络(比当时最大网络大 60 倍)证明了规模对模型性能的重要性,并开发了分布式计算系统 DistBelief。

3. 谷歌在 2013 年通过 Word2Vec 展示了词嵌入的高维向量表示,发现了词之间的语义关联和方向性意义。

4. 2014 年,序列到序列学习模型的诞生为机器翻译等任务提供了新思路,同时谷歌开始研发专用于神经网络推理的 TPU(张量处理单元),其性能远超 CPU 和 GPU。

5. 2017 年,Transformer 的提出彻底改变了自然语言处理领域,其并行化和注意力机制显著提升了效率,成为现代大型语言模型的基础架构。

6. 谷歌在稀疏模型(如 MoE)和多模态 Transformer(如图像与文本的统一处理)方面取得了重要突破,进一步扩展了 AI 的应用范围。

7. 2022 年,思维链(CoT)技术的提出显著提升了模型推理能力,而蒸馏技术则实现了大模型知识向小模型的高效迁移。

8. 2023 年,谷歌推出的推测式解码技术通过结合大模型和小模型的优势,进一步提升了推理速度。

9. Jeff Dean 总结道,AI 的未来充满希望,它将深刻影响社会各领域,并让专业知识更易于获取。

截图在AI工具中的重要性

原文链接:
The humble screenshot might be the key to great AI assistants
by:David Pierce

截图在AI工具中的重要性

截图是捕捉数字信息的最通用方法。无论是网页、应用还是视频,只需几下点击,就能保存并分享到任何设备或应用。这种便携的数据格式在软件间传输信息时无与伦比。

截图包含丰富的信息,不仅有来源和内容,还包括时间戳等细节。更重要的是,截图传达了一个关键信号:“我重视这个内容”

在AI工具日益普及的今天,截图的价值更加凸显。这些工具正在努力理解和分析世界、生活和各种信息,而截图正是其中不可或缺的一部分。

AI功能强制植入引发用户不满的现状分析

原文链接:

From novelty to nuisance: The AI revolution no one wanted is sweeping all before
it


by:
Graham Barlow


AI功能强制植入引发用户不满的现状分析

1. 微软Recall功能争议:该AI功能每3秒截屏并存储用户电脑活动,被批为“安全噩梦”无人真正需要,但仍在强制推行。

2. Garmin订阅模式惹众怒:将一次性购买产品转为AI分析订阅服务,用户担忧免费功能终将收费化,被迫选择付费或弃用平台。

3. AI泛滥现象普遍:从手机、智能音箱到搜索引擎,Google AI概览强制插入搜索结果,反而增加用户操作步骤,破坏传统搜索体验。

4. 用户主动抵制案例:关闭iPhone的AI摘要功能(因信息失真),闲置Genmoji等噱头功能,反映“为AI而AI”的设计失败。

5. 核心矛盾点:科技公司假设用户需要全方位AI介入,却重现了Windows 97″Clippy助手”的扰民历史,强制推送导致体验降级。

6. 用户诉求:AI应作为可选工具而非默认强制功能,在图像生成等特定场景展现价值时,仍需保持用户自主选择权

AI工具NotebookLM制作弦理论播客的实验与体验

原文链接:

I fed NotebookLM a 218-page research paper on string theory and the podcast
results were mind-blowing


by:
Lance Ulanoff


AI工具NotebookLM制作弦理论播客的实验与体验

1. 突破性创作尝试
作者利用NotebookLM AI工具制作了迄今为止”最深奥迷人”的弦理论播客,尽管本人对弦理论理解有限(认为全球仅1%能真正理解),但通过AI将前沿科学与自身知识边界相结合。

2. NotebookLM核心功能
该AI研究工具可将上传资料转化为多种形式输出:文本摘要、播客音频和思维导图。作者特别推崇其”音频概览”功能,能生成对话式播客,风格类似主流访谈节目。

3. 弦理论播客制作过程
使用剑桥大学David Tong博士2009年的弦理论论文作为源材料,AI耗时30分钟生成播客和思维导图。初期担心AI无法处理复杂物理概念,但实际表现远超人类理解能力

4. 播客内容特点
由男女双AI主播以通俗对话形式讲解,涵盖广义相对论、量子力学等概念,运用类比(如”想象弦在时空中的运动”)降低理解门槛。但后期内容仍显艰深,存在术语堆砌现象。

5. 输出成果评估
• 播客持续31分钟后突兀结束,缺乏总结
• 配套思维导图能有效辅助理解复杂概念
• 经物理专家验证内容无明显错误,但需要一定专业知识才能完全理解

6. 实验结论
NotebookLM展现了对深奥科学内容的强大处理能力,其生成的解释性内容甚至可能超越普通人的认知水平。但AI输出仍存在结构不完善、需专业验证等问题。