分类目录归档:资讯

世界上每天都在发生的变化

继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖

原文链接:
继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖


1. ICLR 2025时间检验奖结果公布

冠军论文:2015年提出的Adam优化算法(被引超21万次),因其革命性地提升神经网络训练效率,成为深度学习领域最广泛应用的优化器之一。作者Diederik P. Kingma(OpenAI创始成员)第二次获此殊荣,其另一贡献VAE曾获2024年该奖项。
亚军论文《Neural Machine Translation by Jointly Learning to Align and Translate》,比Transformer早三年提出注意力机制,为现代序列模型奠定基础,作者包括图灵奖得主Yoshua Bengio。

2. Adam算法的核心贡献

– 结合动量法与RMSProp,通过动态调整学习率实现高效收敛
– 适用于CV、NLP、强化学习等领域,成为SOTA模型的默认优化器
– 论文作者还包括多伦多大学助理教授Jimmy Lei Ba(Geoffrey Hinton学生)。

3. 亚军论文的里程碑意义

– 首次提出软性注意力机制,解决传统编码器-解码器的固定向量瓶颈;
– 灵感源自翻译时的”目光移动”,被Yoshua Bengio命名为”Attention”;
– AI专家Andrej Karpathy曾为其影响力未被充分认可鸣不平。

4. 作者背景亮点

Diederik P. Kingma:VAE、Glow、扩散模型贡献者,现任职Anthropic;
Dzmitry Bahdanau(亚军论文一作)披露研究细节:注意力机制灵感来自中学英语翻译练习;
Kyunghyun Cho(合著者)现为纽约大学教授兼Genentech研究总监。

(注:所有论文链接及参考来源已省略,保留于原摘要中)

ICLR 2025 | 一行代码!FreDF频域损失稳定提升时间序列预测精度

原文链接:
ICLR 2025 | 一行代码!FreDF频域损失稳定提升时间序列预测精度


1. 研究背景与团队
本文由浙江大学、中南大学、上海交通大学、Tiktok、北京大学、南洋理工大学联合完成,第一作者为浙江大学王浩(发表多篇顶会论文),通讯作者为北京大学李昊轩和南洋理工大学陶大程教授。研究聚焦时间序列预测在气象、工业、医疗等领域的应用价值。

2. 核心问题与创新
现有方法忽略标签序列的自相关性,导致训练目标有偏。论文提出频域标签训练新范式FreDF,仅需一行代码即可在主流模型(如Transformer、MLP)上稳定提升预测精度。

3. 关键理论与方法
• 定理3.1证明:时域标签相关性>0时,传统损失函数有偏;频域中相关性被抑制,损失函数无偏。
• FreDF通过添加频域损失实现:融合时域与频域损失(α=0.8~0.9时效果最佳),显著提升序列高频成分捕捉能力。

4. 实验结果
ETTm1数据集:iTransformer的MSE降低0.019,相当于过去1.5年该数据集性能提升总和。
M4数据集:FreTS模型在3项指标上全面超越基线。
• 消融实验显示:仅频域损失即可显著改进性能,时频域融合进一步优化。

5. 普适性与意义
FreDF在iTransformer、DLinear等不同架构上均有效,具有模型无关性,为时序预测提供通用解决方案,可成为性能优化的”最后一棒”。

聚焦人工智能-生物-工程交叉融合,一文综述即将到来的「技术创变」浪潮

原文链接:
聚焦人工智能-生物-工程交叉融合,一文综述即将到来的「技术创变」浪潮


1. 未来技术融合浪潮
人工智能、量子计算、纳米工程、CRISPR基因编辑等前沿技术正在崛起,尤其在合成生物技术、信息技术、纳米技术与工程技术的交叉领域,形成了”技术创变”浪潮。近期研究聚焦芯片技术与合成生物信息工程的融合,探索生物分子作为数据存储载体、混合半导体及下一代AI处理器的潜力。

2. 生物分子信息系统突破
基于核酸的生物分子有望成为生物芯片载体,其数据存储能力可能超越传统无机半导体技术。合成DNA/RNA通过特定编码可满足全球数据存储需求,在长期存储领域具有数量级突破潜力。

3. 半导体技术新方向
传统半导体面临摩尔定律瓶颈,而生物学与工程思维的融合带来新可能:
– 生物传感器/接口(如脑机接口)
– 生物集成技术(如核酸纳米存储)
– 生物启发计算(如神经形态计算)
连接组学研究将助力构建更高效的”电子大脑”。

4. 合成生物学革命
该领域通过AI/ML与电子技术融合实现突破:
活细胞计算:已实现全套布尔逻辑运算
DNA存储:超高密度与超长保存期
器官芯片:替代动物实验的微流控系统
机器学习在蛋白质设计(2024诺奖成果)和代谢通路设计中表现突出。

5. 生物智能的超越性
生物学在模拟信息处理问题优化方面具有天然优势,能突破传统计算的三大物理极限:
– 半导体尺度极限
– 能源消耗极限
– 信息带宽极限
35亿年进化的细胞计算能力可能带来量子计算级的变革。

核心展望
信息-生物-纳米-工程领域的融合将催生生命数字统一模型,其颠覆性影响不亚于传统计算的诞生。

迄今为止最大、最详细的哺乳动物脑连接图,详细展现海量神经元活动

原文链接:
迄今为止最大、最详细的哺乳动物脑连接图,详细展现海量神经元活动


1. 里程碑式研究成果
研究人员绘制了迄今最大、最详细的哺乳动物脑连接图,展示了小鼠脑组织一立方毫米内20万个脑细胞(含8.2万神经元)5亿突触4公里神经元线路的3D图谱,首次实现单神经元活动的大规模观测。

2. 技术突破与数据规模
通过切片成像(每片仅头发1/400厚)、AI标注及活动记录匹配,MICrONS项目团队在《Nature》发表8篇论文。数据规模远超人类同类图谱(1.6万神经元/1.5亿突触),被哈佛学者誉为“神经科学史无前例的成就”

3. 关键发现
验证了“同时放电的神经元更易连接”的神经理论,但发现该规则在皮层各区域适用性差异。首次揭示处理相似视觉特征的神经元会优先形成强连接。

4. 科学意义与展望
该图谱为研究视觉记忆存储机制等基础问题提供资源,覆盖小鼠大脑0.2%区域。团队计划扩展至全脑测绘,学者评价其“令人敬畏如观星空”的复杂性。

5. 数据开放
所有数据已在线公开,正被全球团队用于多项研究,推动连接组学发展。

AI助力人类与海豚跨物种交流:DolphinGemma项目突破

原文链接:

Google’s new AI model could someday let you understand and talk to dolphins


by:
Eric Hal Schwartz


AI助力人类与海豚跨物种交流:DolphinGemma项目突破

1. 历史性突破
人类与海豚的交流长期处于单向状态,如今Google联合佐治亚理工学院和野生海豚项目(WDP)开发出AI模型DolphinGemma,首次实现海豚声音的识别与生成。

2. 数据基础
基于WDP自1985年以来收集的野生大西洋斑点海豚音频/视频数据,该模型采用Google开源的Gemma架构,通过SoundStream音频标记器实现海豚声音的预测(类似”海豚版自动补全”)。

3. 实时应用
轻量化模型可在Google Pixel手机运行,今夏已投入实地测试,通过防水设备实时识别声纹模式并标记关键序列。

4. 双向通信系统
CHAT系统创造性地建立人豚”共享语言”:为海豚喜爱的物体(如海草、丝巾)分配人工哨音,观察海豚是否模仿这些声音提出需求。

5. 未来计划
Google计划年内开源模型,虽暂不能实现复杂对话,但能高效分析多年音频数据。模型经调整后或可应用于其他海洋物种。

6. 跨物种交流延伸
类似技术已用于解码猪的情绪发声,但海豚因其高智商和社交性成为更受关注的交流对象,未来或实现航海时的简单”问路”。

Sam Altman或建社交网络挑战Elon Musk的X平台

原文链接:

OpenAI might build its own social network, and we think we know why


by:
Lance Ulanoff


Sam Altman或建社交网络挑战Elon Musk的X平台

1. 潜在竞争格局
Sam Altman据传正考虑在OpenAI基础上开发社交网络,可能直接与Elon Musk的Grok(基于X平台的AI服务)形成对抗。该项目尚处早期阶段,细节未明。

2. 创始人恩怨背景
此举可能源于Altman与Musk的长期矛盾——两人曾共同创立OpenAI,但Musk于2018年退出后多次批评OpenAI转向营利模式。此次传闻或更多是象征性对抗而非实质开发进展。

3. 数据战略价值
若成真,该社交网络的核心价值在于获取用户生成内容数据,用于训练下一代GPT模型。真实人类行为数据对AI进化至关重要。

4. 市场时机存疑
分析师认为最佳时机应是Musk收购Twitter引发混乱之际(当时催生了Mastodon等替代平台)。当前文本社交平台增长放缓,主流已转向TikTok/Instagram Reels等短视频平台

5. 象征意义大于实用
即便最终产品可能只是”又一个无人需要的微博类平台”,但作为向Musk示威的试验性举措,仍具有战略试探价值。

OpenAI发布GPT-4.1系列模型及开发者API更新摘要

原文链接:

OpenAI promises new ChatGPT features this week – all the latest as Sam Altman
says ‘we’ve got a lot of good stuff for you’


by:
John-Anthony Disotto


OpenAI发布GPT-4.1系列模型及开发者API更新摘要

1. 核心发布内容
OpenAI正式推出专为开发者设计的GPT-4.1系列模型,包括GPT-4.1标准版、Mini版和Nano版,现已通过API开放使用。该系列专注于代码生成、指令跟随和百万token长文本理解三大核心能力。

2. 技术特性亮点
新模型被官方称为“最快且最经济”的版本,在API中表现优于GPT-4o。特别强化了指令理解精准度,减少了冗余输出,开发者实测反馈积极。但普通用户暂无法直接体验

3. 战略布局暗示
CEO Sam Altman通过推特预告本周可能持续发布重要更新。虽未现身发布会,但转发了用户关于GPT-4.1提升工作流程的实证。行业猜测这可能开启类似去年”12天连续发布”的节奏。

4. 生态影响观察
随着Google Gemini/DeepSeek等竞品追赶,GPT-4.1被视为确立新标准的尝试。其图像生成功能(如宠物拟人化)已助推ChatGPT日活用户超越Instagram/TikTok,但部分AI趋势引发争议。

5. 未解悬念
业界关注是否将推出Agentic AI等突破性功能,以及本周会否公布GPT-4o正式继任者。TechRadar等媒体将持续通过直播博客跟踪最新动态。

OpenAI新一代AI模型:隐形渗透数字生活的”基础设施”

原文链接:

Avoiding ChatGPT won’t keep OpenAI from infusing its AI models into your life


by:
Eric Hal Schwartz


<span style="font-weight:bold;color:#299E59;font-size:24px;">OpenAI新一代AI模型:隐形渗透数字生活的”基础设施”</span>

1. 隐形AI渗透
OpenAI发布专为开发者设计的GPT-4.1等新模型,这些模型将悄无声息地嵌入各类应用(如邮箱、待办清单、食谱软件),用户可能毫无察觉地日常使用AI。

2. 技术特性突破
新模型针对指令执行、编码和信息推理优化,具有更高速度与成本效益,适合资源有限的开发者实现智能功能(如自动分类开支、生成会议摘要)。

3. 从产品到基础设施
AI正转变为“数字 plumbing”——像Wi-Fi一样隐形存在,失败时才被注意。这种转变可能提升公众接受度,但模糊了”AI使用者”的定义。

4. 隐忧与争议
透明度缺失:多数应用不会主动披露使用AI,尤其基础功能场景
隐私边界模糊:智能预测功能可能演变为监控(如购物推荐)
技术垄断风险:数字生活将被少数不透明的底层模型塑造

5. 用户的两难选择
抵制AI将变得极其困难——要么彻底审查每个应用的用户协议,要么接受AI对数字世界的隐形改造

xAI旗下Grok即将推出记忆功能等多项更新 向主流AI工具看齐

原文链接:

Grok may start remembering everything you ask it to do, according to new reports


by:
Eric Hal Schwartz


xAI旗下Grok即将推出记忆功能等多项更新 向主流AI工具看齐

1. 核心功能升级
Grok将新增”记忆系统”,通过设置中的“Personalise with Memories”开关实现。该功能允许AI引用历史对话内容,例如提醒用户”我们之前讨论过这个吗?”,标志着从即时工具向长期助手的转变。

2. 用户隐私控制
记忆系统采用用户完全可控的设计,支持删除特定记忆或全部数据,这与行业标准一致,对建立工作/生活场景中的信任至关重要。

3. 竞品对标加速
xAI以“冲刺速度”推进更新,试图快速追平ChatGPT和Gemini在记忆、图像编辑等功能上的优势。部分用户已看到测试版记忆功能,但全面推送时间未定。

4. 多模态能力拓展
即将推出视觉功能(通过手机摄像头解析环境)、图像风格修改工具,以及Google Drive集成,增强艺术创作和办公场景适用性。

5. 战略转型信号
通过Grok Workspaces协作白板等更新,xAI正将产品从”毒舌问答机”重塑为严肃生产力工具。Grok 3.5版本即将发布,4.0计划年底推出。

6. 关键挑战
记忆系统的实际效用功能整合度将决定Grok能否突破”网红玩具”印象,成为用户真正的首选AI助手。

合成数据助力视频生成提速8.5倍,上海AI Lab开源AccVideo

原文链接:
合成数据助力视频生成提速8.5倍,上海AI Lab开源AccVideo


1. 研究背景与问题
扩散模型在视频生成中性能卓越,但传统方法(如HunyuanVideo)需大量推理步骤去噪,导致生成5秒720p视频耗时3234秒(单A100),存在效率瓶颈。

2. 创新解决方案
上海AI Lab提出AccVideo框架,通过合成数据集SynVid和高效蒸馏技术实现:
8.5倍加速:推理速度提升至教师模型的8.5倍
低资源训练:仅需8块A100训练12天(3.84万条合成数据)
质量保持:生成5秒720p视频质量与教师模型相当

3. 关键技术突破
3.1 SynVid数据集构建
利用教师模型生成高质量视频及去噪轨迹,避免传统蒸馏中的无效数据点问题,显著提升训练效率。
3.2 少步指导机制
通过5个关键扩散时间步学习噪声-视频映射,推理步数减少10倍(m=5)。
3.3 对抗训练策略
噪声感知判别器+时间步投影头设计,避免前向扩散操作,稳定提升生成质量。

4. 实验结果
– 定性对比显示伪影更少(如手部细节)
– 较CogVideoX1.5提升画面保真度和背景效果
– 文本匹配度优于HunyuanVideo(如复古SUV呈现)

5. 开源与影响
– 已集成ComfyUI并支持Lora
– 获Reddit等社区广泛关注
– 开源地址:github.com/aejion/AccVideo