分类目录归档:资讯

世界上每天都在发生的变化

从国家级实验室前沿技术到聚焦能源智能化落地,中科类脑获国家级产业资本亿元投资

原文链接:
从国家级实验室前沿技术到聚焦能源智能化落地,中科类脑获国家级产业资本亿元投资


1. 能源AI赛道崛起与中科类脑的突破
中科类脑在能源AI领域完成技术到商业的深度突围,获得亿元级B轮融资,由中国移动旗下基金战略投资,跻身”AI国家队”。2024年能源行业大模型招标超80个,国家电网等央企加速AI融合。

2. 七年深耕能源智能化转型
成立于2017年的中科类脑,依托中科大类脑实验室技术,2019年战略转向能源赛道。在”双碳”政策驱动下,抓住电网智能化、新能源预测等需求,市场规模预计将达6384亿元。

3. 全栈技术构建行业壁垒
打造从算力支撑到场景应用的全栈方案,覆盖发输变配用全场景,AI项目复购率75%。自主研发能源多模态大模型,解决通用大模型在电力行业的适用性问题,训练效能达国际芯片80%。

4. 工程化能力与服务创新
建设多个智算中心积累核心工程能力,组建复合型”行业翻译官”团队,算法迭代周期缩短60%。通过开放合作战略,将能源AI能力复制到建材、水利等领域。

5. 商业化成果与未来展望
已服务100余座变电站,打造”算力-模型-应用”三层变现结构,标准化产品收入占比提升至55%。创始人表示将长期投入能源智能化,并逐步向工业制造场景延伸技术能力。

Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌

原文链接:
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌


1. 谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院的演讲中,回顾了 AI 近十五年的发展历程,重点介绍了谷歌在 Transformer、蒸馏、MoE 等技术上的奠基性贡献,并展望了 AI 的未来。

2. 神经网络和反向传播是深度学习革命的两大关键。2012 年,谷歌通过训练大型神经网络(比当时最大网络大 60 倍)证明了规模对模型性能的重要性,并开发了分布式计算系统 DistBelief。

3. 谷歌在 2013 年通过 Word2Vec 展示了词嵌入的高维向量表示,发现了词之间的语义关联和方向性意义。

4. 2014 年,序列到序列学习模型的诞生为机器翻译等任务提供了新思路,同时谷歌开始研发专用于神经网络推理的 TPU(张量处理单元),其性能远超 CPU 和 GPU。

5. 2017 年,Transformer 的提出彻底改变了自然语言处理领域,其并行化和注意力机制显著提升了效率,成为现代大型语言模型的基础架构。

6. 谷歌在稀疏模型(如 MoE)和多模态 Transformer(如图像与文本的统一处理)方面取得了重要突破,进一步扩展了 AI 的应用范围。

7. 2022 年,思维链(CoT)技术的提出显著提升了模型推理能力,而蒸馏技术则实现了大模型知识向小模型的高效迁移。

8. 2023 年,谷歌推出的推测式解码技术通过结合大模型和小模型的优势,进一步提升了推理速度。

9. Jeff Dean 总结道,AI 的未来充满希望,它将深刻影响社会各领域,并让专业知识更易于获取。

截图在AI工具中的重要性

原文链接:
The humble screenshot might be the key to great AI assistants
by:David Pierce

截图在AI工具中的重要性

截图是捕捉数字信息的最通用方法。无论是网页、应用还是视频,只需几下点击,就能保存并分享到任何设备或应用。这种便携的数据格式在软件间传输信息时无与伦比。

截图包含丰富的信息,不仅有来源和内容,还包括时间戳等细节。更重要的是,截图传达了一个关键信号:“我重视这个内容”

在AI工具日益普及的今天,截图的价值更加凸显。这些工具正在努力理解和分析世界、生活和各种信息,而截图正是其中不可或缺的一部分。

AI功能强制植入引发用户不满的现状分析

原文链接:

From novelty to nuisance: The AI revolution no one wanted is sweeping all before
it


by:
Graham Barlow


AI功能强制植入引发用户不满的现状分析

1. 微软Recall功能争议:该AI功能每3秒截屏并存储用户电脑活动,被批为“安全噩梦”无人真正需要,但仍在强制推行。

2. Garmin订阅模式惹众怒:将一次性购买产品转为AI分析订阅服务,用户担忧免费功能终将收费化,被迫选择付费或弃用平台。

3. AI泛滥现象普遍:从手机、智能音箱到搜索引擎,Google AI概览强制插入搜索结果,反而增加用户操作步骤,破坏传统搜索体验。

4. 用户主动抵制案例:关闭iPhone的AI摘要功能(因信息失真),闲置Genmoji等噱头功能,反映“为AI而AI”的设计失败。

5. 核心矛盾点:科技公司假设用户需要全方位AI介入,却重现了Windows 97″Clippy助手”的扰民历史,强制推送导致体验降级。

6. 用户诉求:AI应作为可选工具而非默认强制功能,在图像生成等特定场景展现价值时,仍需保持用户自主选择权

AI工具NotebookLM制作弦理论播客的实验与体验

原文链接:

I fed NotebookLM a 218-page research paper on string theory and the podcast
results were mind-blowing


by:
Lance Ulanoff


AI工具NotebookLM制作弦理论播客的实验与体验

1. 突破性创作尝试
作者利用NotebookLM AI工具制作了迄今为止”最深奥迷人”的弦理论播客,尽管本人对弦理论理解有限(认为全球仅1%能真正理解),但通过AI将前沿科学与自身知识边界相结合。

2. NotebookLM核心功能
该AI研究工具可将上传资料转化为多种形式输出:文本摘要、播客音频和思维导图。作者特别推崇其”音频概览”功能,能生成对话式播客,风格类似主流访谈节目。

3. 弦理论播客制作过程
使用剑桥大学David Tong博士2009年的弦理论论文作为源材料,AI耗时30分钟生成播客和思维导图。初期担心AI无法处理复杂物理概念,但实际表现远超人类理解能力

4. 播客内容特点
由男女双AI主播以通俗对话形式讲解,涵盖广义相对论、量子力学等概念,运用类比(如”想象弦在时空中的运动”)降低理解门槛。但后期内容仍显艰深,存在术语堆砌现象。

5. 输出成果评估
• 播客持续31分钟后突兀结束,缺乏总结
• 配套思维导图能有效辅助理解复杂概念
• 经物理专家验证内容无明显错误,但需要一定专业知识才能完全理解

6. 实验结论
NotebookLM展现了对深奥科学内容的强大处理能力,其生成的解释性内容甚至可能超越普通人的认知水平。但AI输出仍存在结构不完善、需专业验证等问题。

OpenAI多款AI模型性能对比测试摘要

原文链接:

ChatGPT model matchup – I pitted OpenAI’s o3, o4-mini, GPT-4o, and GPT-4.5 AI
models against each other and the results surprised me


by:
Eric Hal Schwartz


OpenAI多款AI模型性能对比测试摘要

1. 测试背景
OpenAI近期发布了o3和o4-mini两款新AI模型,与测试中的GPT-4.5及默认的GPT-4o共同构成复杂产品线。测试者通过四项日常场景任务对比了它们的表现。

2. 模型特性
o3:号称”天才中的天才”,擅长图像解析和逻辑推理
o4-mini:经济版,响应更快但性能稍弱
GPT-4.5:综合能力最强,兼具逻辑与共情
GPT-4o:原生多模态模型,功能全面但缺乏新模型的某些特性

3. 测试结果
• 数独测试:所有模型均能正确解答,o3/o4-mini展示数学推导,GPT-4o/4.5采用对话式解释。面对错误题目时,GPT-4o异常生成全零答案表。

• 诗歌创作:要求按字母顺序写季节诗。o3唯一不押韵,GPT-4.5作品被评价”迷人”,其余模型产出适合贺卡的平淡作品。

• 食谱推荐:o3提供结构化菜谱表格,o4-mini方案简洁,GPT-4o意外简短,GPT-4.5则生成包含五道菜的完整菜单,其中芒果薄荷冰沙配方备受期待。

• 文化翻译:翻译英语谚语”raining cats and dogs”时,所有模型均指出日语需用”倾盆大雨”替代,GPT-4.5额外说明直译问题,GPT-4o则过度使用表情符号。

4. 总体评价
各模型在常规场景下表现均合格,但特色鲜明:
– o3最精准分析型
– o4-mini快速精简版
– GPT-4.5最拟人化
– GPT-4o偏爱表情符号
测试者特别推荐GPT-4.5的厨房应用潜力。

谷歌Gemini Live免费开放屏幕与摄像头共享功能

原文链接:

You don’t have to pay for Google Gemini to comment on what you’re looking at on
your phone anymore


by:
Eric Hal Schwartz


谷歌Gemini Live免费开放屏幕与摄像头共享功能

1. 功能开放:谷歌突然改变原定付费计划,宣布Gemini Live的屏幕和摄像头共享功能将免费向所有Android用户开放,无需订阅或Pixel设备,只需安装Gemini应用。

2. 核心能力:用户可通过实时屏幕共享(如网页、表格或设置界面)或摄像头识别(如商品标签、棋盘等)获取AI即时帮助,实现视觉交互。

3. 政策转变:该功能最初仅限Gemini Advanced订阅用户及特定机型(如Pixel 9),因用户反馈积极,谷歌决定全面免费开放,未来几周覆盖所有Android设备。

4. 生态优势:相比微软需通过Edge浏览器使用的Copilot Vision,Gemini Live直接集成至Android系统,无需额外启动应用,体验更无缝。

5. 行业影响:谷歌的免费策略重新定义了“付费AI”的边界,引发对”高级功能是否值得付费”的讨论,目前AI工具正加速走向免费化。

数字照片元数据与AI地理定位的隐私风险

原文链接:

You can’t hide from ChatGPT – new viral AI challenge can geo-locate you from
almost any photo – we tried it and it’s wild and worrisome


by:
Lance Ulanoff


数字照片元数据与AI地理定位的隐私风险

1. 照片元数据的敏感信息
数字照片的元数据包含相机技术参数和GPS定位信息,可能暴露拍摄者的具体位置。

2. GPT-o3的强大地理定位能力
最新GPT-o3模型即使在没有元数据的情况下,也能通过图像分析进行精准地理位置猜测,并展示其推理过程(如分割图像、分析细节等)。

3. 实际测试案例
– 成功案例:仅用24秒准确识别出佛得角圣莫尼卡海滩,通过分析海水颜色、沙滩质地等特征
– 失败案例:无法识别某书店位置,但展示了详细的推理过程
– 精确案例:通过建筑细节在56秒内定位到纽约42街Cipriani餐厅
– 局限案例:对安提瓜岛度假村定位偏差46英里

4. 隐私安全警示
这种技术意味着任何人上传到网络的数字照片都可能被用来追踪其位置历史,存在被雇主、当局等第三方利用的风险。

5. 建议
需谨慎考虑在社交媒体分享包含地理位置线索的照片,特别是敏感场所的影像。

《弗林效应逆转:人类智商下降的成因与影响》

原文链接:

The Reverse Flynn Effect — Why Has the Average IQ Been Decreasing Lately?


by:
Carl Williams


《弗林效应逆转:人类智商下降的成因与影响》

1. 现象定义
科学家发现过去几十年平均智商持续上升的”弗林效应“近年出现逆转,发达国家智商开始以每代2-4点的速度下降,这一现象被称为”逆弗林效应“。

2. 历史背景
新西兰学者James Flynn在1980年代发现,工业化国家平均智商每十年增长3-5点,归因于生活条件改善、教育普及和认知任务复杂化。

3. 五大成因
教育系统僵化:侧重记忆而非批判性思维培养
数字技术冲击:碎片化信息削弱深度思考能力
环境污染:微塑料/铅污染损害儿童脑发育
价值观变迁:娱乐化取代智力发展需求
生育率差异:高智商群体生育意愿降低

4. 社会影响
可能导致科技创新乏力、政策决策失误,未来经济将因高技术人才短缺面临挑战,最终影响整体文明发展进程。

5. 应对建议
需改革教育体系、重视环境治理、提升科学素养,通过系统性措施维持社会整体智力水平,避免陷入认知能力衰退的恶性循环。

刚刚,豆包1.5·深度思考模型上线,特供「视觉版本」,大模型多模态推理的时代真来了

原文链接:
刚刚,豆包1.5·深度思考模型上线,特供「视觉版本」,大模型多模态推理的时代真来了


1. 豆包大模型家族重磅升级
火山引擎发布「豆包1.5・深度思考模型」,包含语言版(Doubao-1.5-thinking-pro)和视觉版(Doubao-1.5-thinking-pro-vision)。语言版在数学推理、编程竞赛、科学推理等领域表现突出,视觉版支持多模态交互,能结合图像和文本进行深度分析。

2. 多模态能力成为标配
视觉版模型具备强大的视觉理解能力,可处理复杂任务如医疗影像分析、交通事故责任判定等。例如,能通过航拍图识别青海大柴旦翡翠湖,或协助医生分析CT影像生成初步诊断建议。

3. 文生图模型3.0突破
豆包文生图模型升级至3.0版本,实现三大突破:精准的中文小字排版、实拍级图像生成效果、2K高清直出。在权威榜单中跻身全球第一梯队,尤其在海报设计和人物生成上表现优异。

4. 视觉理解模型增强
新增3D定位和视频搜索能力,支持宠物监控等场景。例如,可快速定位视频中宠物的活动片段,毫秒级返回语义相关结果。

5. 生态工具与解决方案
火山引擎发布OS Agent解决方案、GUI Agent大模型(豆包1.5・UI-TARS)及AI云原生推理套件,助力企业低成本落地AI应用。UI-TARS模型在OS类测试中国内领先,支持图形界面智能交互。

6. 市场表现与技术领先
豆包大模型日均tokens调用量超12.7万亿,年增长106倍。火山引擎以46.4%市场份额居中国公有云大模型市场第一,技术能力覆盖复杂企业场景分析。