分类目录归档:国内

国内人工智能发展

魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

原文链接:
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令


以下是采用CSS样式增强的摘要总结:

1. 创新AI协作模式
加州大学伯克利分校推出AssistanceZero技术,通过《我的世界》游戏演示AI与人类共享奖励参数的协作能力。AI可主动观察人类意图并调整行动,无需指令即能协同建造。

2. 突破RLHF局限
采用“assistance games”强化学习框架替代传统RLHF训练,解决三大痛点:
• 避免AI为获奖励而欺骗人类
• 鼓励AI主动澄清不确定目标
• 实现真正互补性协作而非简单预测

3. 核心技术突破
AssistanceZero算法:融合AlphaZero与蒙特卡洛树搜索,分离目标预测与行动决策
MBAG基准测试:包含超10^400种可能目标的复杂环境,远超以往研究规模

4. 显著性能优势
实验显示AssistanceZero相比PPO和SFT方法:
• 人类操作减少65次
• 目标完成率提升8倍
• 真人测试评分接近人类专家助手水平

5. 未来应用前景
该框架有望革新大语言模型训练范式,解决当前AI助手在复杂任务协作目标不确定性处理方面的根本性缺陷。

苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型

原文链接:
苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型


1. 多模态大模型的发展方向
谷歌Gemini 2.0推出后,原生多模态模型(NMM)被视为正确方向。研究对比了”组合式”与”从零训练”的NMM,发现早融合架构在低参数量下性能更优,训练效率更高。

2. 核心研究发现
• 早融合与后融合模型性能相当,但早融合在低计算预算时略优
• NMM的Scaling Law与纯文本LLM类似(L ∝ C^−0.049)
• 后融合模型需要更多参数(参数数据比更高)
• 稀疏性显著提升早融合性能,模态无关路由优于模态感知路由

3. 关键数据洞察
• 计算最优模型参数关系:N∗ ∝ C^0.526
• 图像说明数据性能提升更快(L ∝ C^−0.061 vs 多模态交织的−0.046)
• 早融合模型训练速度比后融合快30%,内存消耗更少

4. 训练策略比较
• 原生训练在图像说明数据上仅需100B token即可匹敌LLM持续训练
• 多模态交织数据需1T token才能达到相当性能
• 混合专家(MoE)模型在相同推理成本下性能提升显著

5. 未来方向
建议采用统一架构内的多模态特化,通过MoE学习模态专属权重。实验显示15亿参数的稀疏MoE模型在指令微调阶段优于密集模型。

Science子刊 | 基于公平贝叶斯扰动,首个面向医学图像生成公平性的方法FairDiffusion来了

原文链接:
Science子刊 | 基于公平贝叶斯扰动,首个面向医学图像生成公平性的方法FairDiffusion来了


1. 研究背景与问题

人工智能在医学影像领域的应用(如Stable Diffusion)存在人口统计属性上的生成差异,表现为女性、白人及非西班牙裔样本质量更高,而男性、亚洲人及西班牙裔样本表现欠佳,可能加剧医疗资源分配不公平

2. 研究创新与贡献

哈佛大学与纽约大学团队提出FairDiffusion方法,通过公平贝叶斯扰动机制自适应调节不同群体损失权重,并设计ES-FID、ES-IS、ES-AUC等新指标量化公平性。同时构建FairGenMed数据集,涵盖多维敏感属性标注的临床眼底图像。

3. 技术核心

公平贝叶斯扰动:引入自适应高斯扰动缩小群体误差差距。

损失差异量化:定义平均损失差异指导参数更新。

贝叶斯优化:采用上置信界(UCB)函数平衡探索与利用。

4. 实验结果

定性分析:FairDiffusion生成的弱势群体图像细节更接近真实数据。

定量指标:在SLO眼底、皮肤病(HAM10000)和胸部X光(CheXpert)数据上,ES-FID/ES-IS显示群体间差距显著缩小。

临床相关性:ES-AUC证明生成图像与文本提示的语义一致性提升,尤其改善弱势群体的诊断特征。

5. 未来方向

扩充数据集规模、丰富敏感属性维度,探索更广泛的公平生成策略,推动AI在医疗影像中的普惠应用

算法不重要,AI的下一个范式突破,「解锁」新数据源才是关键

原文链接:
算法不重要,AI的下一个范式突破,「解锁」新数据源才是关键


1. AI重大突破的四大里程碑

深度神经网络(2012年AlexNet)→ Transformer语言模型(2017年)→ RLHF(2022年)→ 推理模型(2024年),这四次范式转变均基于已有技术的新数据源应用,而非全新算法。

2. 突破的核心驱动力:数据而非算法

康奈尔大学博士生Jack Morris指出,AI进步的关键在于新数据源(如ImageNet、网络文本、人类反馈、验证器)的解锁。例如Transformer的爆发源于对互联网文本的高效利用。

3. 当前瓶颈与争议

尽管技术持续优化(如FlashAttention、推测解码等),但近期模型(如GPT-4.5)改进有限,数学能力仅达人类5%。研究表明,数据质量上限可能制约模型性能,而非训练技巧。

4. 未来突破方向预测

下一个范式可能来自:
YouTube视频数据(每分钟500小时上传,含语音/视觉/文化信息)
机器人实体数据(传感器与环境的交互数据)
关键结论:AI进步需聚焦新数据源挖掘,而非算法创新。

5. 研究生态反思

全球去中心化研究(如arXiv、开源模型DeepSeek-R1)推动效率提升,但需警惕对“数据决定论”的过度依赖,平衡基础理论与工程实践。

面对杂乱场景,灵巧手也能从容应对!NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一策略

原文链接:
面对杂乱场景,灵巧手也能从容应对!NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一策略


1. 研究团队与背景
新加坡国立大学LinS Lab团队(通讯作者邵林助理教授)提出DexSinGrasp方法,针对物流、家庭等场景中机器人抓取杂乱物体的挑战。传统机械夹爪灵活性不足,灵巧手控制复杂,现有”先分离后抓取”策略效率低下。

2. 核心创新
提出基于强化学习的统一策略框架
– 整合分离与抓取动作,通过分段式奖励函数实现动作平滑过渡
– 引入杂乱环境课程学习机制,避免局部最优
– 采用教师-学生策略蒸馏技术,解决仿真到现实的迁移问题

3. 关键技术
– 动态奖励函数:根据手掌/手指与目标距离自动切换”接近”与”抓取”阶段
– 环境复杂度递进训练:先紧密排列后随机摆放的课程设计效果最佳
– 特权信息蒸馏:仿真教师策略迁移至仅依赖视觉输入的学生策略

4. 实验结果
成功率提升:在4/6/8个障碍物的密集/随机场景中均优于传统分阶段策略
效率优化:平均步数(AS)减少30%以上
实机验证:xArm6+LEAP手在真实场景成功率达85%

5. 研究意义
突破多阶段策略局限,首次实现分离-抓取一体化操作,为复杂非结构化环境中的机器人灵巧操控提供新范式。未来将扩展至动态场景多形态物体操作。