作者归档:admin

3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布

原文链接:
3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布


1. 数据集背景与意义
在大模型推理时代,数学推理能力成为衡量语言模型智能的关键指标。LLM360推出的MegaMath是全球最大开源数学推理预训练数据集(371B tokens),覆盖网页、代码和合成数据,首次在规模上超越DeepSeek-Math(120B),标志着从“仅依赖网页”到“面向推理”的跨越。

2. 数据集的必要性
开源社区长期缺乏高质量、大规模的数学数据(如OpenWebMath规模过小且多样性不足)。MegaMath以规模×质量×多样性为核心,历时9个月构建,规模是OpenWebMath的20倍,填补了开源领域的空白。

3. 数据构建方法
通过三大“流水线”高效开发:
网页数据:优化Common Crawl处理流程,提取高质量数学文本;
代码数据:从Stack v2挖掘数学相关代码(28.1B tokens,11种语言),结合大模型评分和小模型筛选;
合成数据:开源问答、跨语言代码及文本-代码交错数据,均通过质量检测。

4. 验证与效果
经过50+次预训练验证,在Llama-3.2(1B/3B)上测试显示:GSM8K、MATH等任务性能提升15-20%。关键优化包括文本抽取验证、去重策略调优、代码数据比重调整等。

5. 愿景与致谢
团队希望MegaMath推动开源数学数据的进步,成为强数学模型的起点。特别感谢Hugging Face、DeepSeek等开源社区的支持。

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

原文链接:
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展


1. 强化学习(RL)在语言模型推理中的作用存在争议:尽管多篇论文(如DeepSeek-R1)指出RL能显著提升蒸馏模型的推理性能,但最新研究发现这些改进可能因评估噪声(如随机种子、硬件差异)被夸大,实际收益有限且统计不显著。

2. 评估不稳定性是核心问题:在AIME24等小型基准测试中,随机种子变化可导致得分波动达15%,硬件差异(如GPU类型)甚至造成8%的性能差异。评估框架(如LightEval vs Evalchemy)也会影响结果,差异达1-2个百分点。

3. 关键影响因素被系统分析:研究者识别出四大变异源:
采样差异:多种子评估显示Pass@1标准差高达5-15%
解码配置:max_new_tokens和prompt格式显著影响准确性
硬件异质性:不同GPU集群导致性能差异达6-8%
评估框架:工具链选择可能改变模型排名

4. 重要现象发现
响应长度与错误率正相关:超过1万token的响应错误率显著上升,RL/SFT模型均存在此现象
多样性坍缩未被证实:RL模型Pass@1提升时,Pass@k通常同步改善,未发现多样性下降证据

5. 解决方案呼吁标准化评估:研究者提出需控制随机种子(建议10次以上)、统一硬件/框架、规范prompt模板和上下文长度(如32768 tokens),以提升结果的可复现性。

6. 学界反思:Sebastian Raschka指出当前LLM研究普遍存在评估标准不足问题,需建立更严谨的基准验证方法有效性。

不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

原文链接:
不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型


1. 华为发布昇腾原生千亿级大模型Pangu Ultra
华为推出基于昇腾NPU训练的1350亿参数稠密模型Pangu Ultra,技术报告显示其性能超越Llama 405B、Mistral Large 2等国际主流模型,并可与DeepSeek-R1等稀疏模型竞争。

2. 突破国产算力瓶颈
研究团队在8192张昇腾NPU集群上实现50%的算力利用率(MFU),通过混合并行策略和虚拟流水线技术将训练空泡率从30.45%降至6.8%,证明国产算力可支撑千亿级大模型训练。

3. 创新训练稳定性技术
提出Depth-scaled sandwich-norm(DSSN)架构和TinyInit初始化方法:
– DSSN通过层深度平方根倒数调控输出尺度,完全消除loss突刺
– TinyInit采用深度/宽度联合缩放策略,加速收敛20%以上

4. 领域感知分词优化
构建153376词元的混合词表,通过独立分析通用文本、代码、数学等领域词频,使专业领域词元覆盖率提升40%,压缩效率保持92%以上。

5. 三阶段课程训练策略
13.2T tokens训练数据分阶段优化:
– 通用阶段(12T):知识积累
– 推理阶段(0.8T):数学/代码数据占比超60%
– 退火阶段(0.4T):指令数据占比提升至20%

6. 强化学习效果显著
在AIME 2024、MATH-500等基准测试中,后训练模型推理能力超越DeepSeek R1,MMLU-pro通用理解得分达82.3%,验证”预训练+强化学习”技术路线的有效性。

3D领域「源神」又开了两个新项目:三维部件编辑与自动绑定框架

原文链接:
3D领域「源神」又开了两个新项目:三维部件编辑与自动绑定框架


1. VAST开源两大3D生成项目
国内创业公司VAST开源了HoloPartUniRig两大3D工具。HoloPart专注于三维模型部件分割与补全,UniRig则是通用自动绑定框架。

2. HoloPart的核心突破
• 首创三维部件完整语义分割技术,能推断被遮挡部件的完整几何结构
• 采用双重注意力机制(局部+上下文感知),在Objaverse等数据集预训练
• 实验显示性能显著优于现有方法,支持直观编辑/材质分配/动画制作等下游应用

3. UniRig的技术创新
• 通过骨骼树Tokenization将3D骨骼结构转化为Transformer可处理的序列
• 自研Rig-XL数据集(14,000+模型)提升泛化能力
• 实现215%关节预测精度提升,1-5秒快速推理

4. 行业价值
两项技术解决了3D内容生产的部件编辑自动绑定核心痛点,为国产3D大模型发展奠定重要基础。

苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型

原文链接:
苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型


1. 多模态大模型的发展方向
谷歌Gemini 2.0推出后,原生多模态模型(NMM)被视为正确方向。研究对比了”组合式”与”从零训练”的NMM,发现早融合架构在低参数量下性能更优,训练效率更高。

2. 核心研究发现
• 早融合与后融合模型性能相当,但早融合在低计算预算时略优
• NMM的Scaling Law与纯文本LLM类似(L ∝ C^−0.049)
• 后融合模型需要更多参数(参数数据比更高)
• 稀疏性显著提升早融合性能,模态无关路由优于模态感知路由

3. 关键数据洞察
• 计算最优模型参数关系:N∗ ∝ C^0.526
• 图像说明数据性能提升更快(L ∝ C^−0.061 vs 多模态交织的−0.046)
• 早融合模型训练速度比后融合快30%,内存消耗更少

4. 训练策略比较
• 原生训练在图像说明数据上仅需100B token即可匹敌LLM持续训练
• 多模态交织数据需1T token才能达到相当性能
• 混合专家(MoE)模型在相同推理成本下性能提升显著

5. 未来方向
建议采用统一架构内的多模态特化,通过MoE学习模态专属权重。实验显示15亿参数的稀疏MoE模型在指令微调阶段优于密集模型。

魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

原文链接:
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令


以下是采用CSS样式增强的摘要总结:

1. 创新AI协作模式
加州大学伯克利分校推出AssistanceZero技术,通过《我的世界》游戏演示AI与人类共享奖励参数的协作能力。AI可主动观察人类意图并调整行动,无需指令即能协同建造。

2. 突破RLHF局限
采用“assistance games”强化学习框架替代传统RLHF训练,解决三大痛点:
• 避免AI为获奖励而欺骗人类
• 鼓励AI主动澄清不确定目标
• 实现真正互补性协作而非简单预测

3. 核心技术突破
AssistanceZero算法:融合AlphaZero与蒙特卡洛树搜索,分离目标预测与行动决策
MBAG基准测试:包含超10^400种可能目标的复杂环境,远超以往研究规模

4. 显著性能优势
实验显示AssistanceZero相比PPO和SFT方法:
• 人类操作减少65次
• 目标完成率提升8倍
• 真人测试评分接近人类专家助手水平

5. 未来应用前景
该框架有望革新大语言模型训练范式,解决当前AI助手在复杂任务协作目标不确定性处理方面的根本性缺陷。

面对杂乱场景,灵巧手也能从容应对!NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一策略

原文链接:
面对杂乱场景,灵巧手也能从容应对!NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一策略


1. 研究团队与背景
新加坡国立大学LinS Lab团队(通讯作者邵林助理教授)提出DexSinGrasp方法,针对物流、家庭等场景中机器人抓取杂乱物体的挑战。传统机械夹爪灵活性不足,灵巧手控制复杂,现有”先分离后抓取”策略效率低下。

2. 核心创新
提出基于强化学习的统一策略框架
– 整合分离与抓取动作,通过分段式奖励函数实现动作平滑过渡
– 引入杂乱环境课程学习机制,避免局部最优
– 采用教师-学生策略蒸馏技术,解决仿真到现实的迁移问题

3. 关键技术
– 动态奖励函数:根据手掌/手指与目标距离自动切换”接近”与”抓取”阶段
– 环境复杂度递进训练:先紧密排列后随机摆放的课程设计效果最佳
– 特权信息蒸馏:仿真教师策略迁移至仅依赖视觉输入的学生策略

4. 实验结果
成功率提升:在4/6/8个障碍物的密集/随机场景中均优于传统分阶段策略
效率优化:平均步数(AS)减少30%以上
实机验证:xArm6+LEAP手在真实场景成功率达85%

5. 研究意义
突破多阶段策略局限,首次实现分离-抓取一体化操作,为复杂非结构化环境中的机器人灵巧操控提供新范式。未来将扩展至动态场景多形态物体操作。

算法不重要,AI的下一个范式突破,「解锁」新数据源才是关键

原文链接:
算法不重要,AI的下一个范式突破,「解锁」新数据源才是关键


1. AI重大突破的四大里程碑

深度神经网络(2012年AlexNet)→ Transformer语言模型(2017年)→ RLHF(2022年)→ 推理模型(2024年),这四次范式转变均基于已有技术的新数据源应用,而非全新算法。

2. 突破的核心驱动力:数据而非算法

康奈尔大学博士生Jack Morris指出,AI进步的关键在于新数据源(如ImageNet、网络文本、人类反馈、验证器)的解锁。例如Transformer的爆发源于对互联网文本的高效利用。

3. 当前瓶颈与争议

尽管技术持续优化(如FlashAttention、推测解码等),但近期模型(如GPT-4.5)改进有限,数学能力仅达人类5%。研究表明,数据质量上限可能制约模型性能,而非训练技巧。

4. 未来突破方向预测

下一个范式可能来自:
YouTube视频数据(每分钟500小时上传,含语音/视觉/文化信息)
机器人实体数据(传感器与环境的交互数据)
关键结论:AI进步需聚焦新数据源挖掘,而非算法创新。

5. 研究生态反思

全球去中心化研究(如arXiv、开源模型DeepSeek-R1)推动效率提升,但需警惕对“数据决定论”的过度依赖,平衡基础理论与工程实践。

Science子刊 | 基于公平贝叶斯扰动,首个面向医学图像生成公平性的方法FairDiffusion来了

原文链接:
Science子刊 | 基于公平贝叶斯扰动,首个面向医学图像生成公平性的方法FairDiffusion来了


1. 研究背景与问题

人工智能在医学影像领域的应用(如Stable Diffusion)存在人口统计属性上的生成差异,表现为女性、白人及非西班牙裔样本质量更高,而男性、亚洲人及西班牙裔样本表现欠佳,可能加剧医疗资源分配不公平

2. 研究创新与贡献

哈佛大学与纽约大学团队提出FairDiffusion方法,通过公平贝叶斯扰动机制自适应调节不同群体损失权重,并设计ES-FID、ES-IS、ES-AUC等新指标量化公平性。同时构建FairGenMed数据集,涵盖多维敏感属性标注的临床眼底图像。

3. 技术核心

公平贝叶斯扰动:引入自适应高斯扰动缩小群体误差差距。

损失差异量化:定义平均损失差异指导参数更新。

贝叶斯优化:采用上置信界(UCB)函数平衡探索与利用。

4. 实验结果

定性分析:FairDiffusion生成的弱势群体图像细节更接近真实数据。

定量指标:在SLO眼底、皮肤病(HAM10000)和胸部X光(CheXpert)数据上,ES-FID/ES-IS显示群体间差距显著缩小。

临床相关性:ES-AUC证明生成图像与文本提示的语义一致性提升,尤其改善弱势群体的诊断特征。

5. 未来方向

扩充数据集规模、丰富敏感属性维度,探索更广泛的公平生成策略,推动AI在医疗影像中的普惠应用

解读《论语》”己所不欲,勿施于人”的处世智慧

原文出处与字面释义

《论语·卫灵公》记载:”子贡问曰:’有一言而可以终身行之者乎?’子曰:’其恕乎!己所不欲,勿施于人。'”

此句直译为:自己不愿意承受的事情,也不要强加给别人。这八个字看似简单,却蕴含着儒家”恕道”的核心思想,被西方学者誉为”道德黄金律”的东方表达。

历史典故佐证

春秋时期,齐景公问政于晏子:”治国何患?”晏子对曰:”患夫社鼠。”并解释:”君之左右,出则卖君以要利,入则托君以蔽恶,此社鼠也。”这正是掌权者将自身不愿承受的欺瞒行为施加于人的典型。而管仲临终前告诫齐桓公勿用易牙、竖刁、开方三人,正是因为”人之情非不爱其子也,非不爱其身也”,自己都不愿承受的牺牲,却让他人承受,必藏祸心。

多维度的现代诠释

职场应用

唐太宗《帝范》云:”夫君者,俭以养性,静以修身。俭则人不劳,静则下不扰。”管理者若厌恶加班却要求员工熬夜,反感推诿却自己逃避责任,便是违背此道。日本经营之圣稻盛和夫创立”阿米巴经营”模式时,特别强调”作为人,何谓正确”的判断基准,正是此理的延伸。

家庭关系

《颜氏家训》有言:”父子之严,不可以狎;骨肉之爱,不可以简。”父母若童年厌恶攀比,就不该用”别人家孩子”苛责子女;子女若将来不愿被冷漠对待,此刻就应体谅父母唠叨。北宋司马光在《家范》中记载,其兄司马旦”终身未尝怒骂仆隶”,因将心比心知”彼亦人子也”。

东西方哲学呼应

德国哲学家康德的”绝对命令”提出:”要只按照你同时认为也能成为普遍规律的准则去行动。”这与”己所不欲勿施于人”异曲同工。犹太教《塔木德》亦有:”你们厌恶的事,不可对同胞做。这就是全部律法,其余都是注释。”可见人类文明对同理心的共同追求。

实践中的辩证思考

明代思想家吕坤在《呻吟语》中提醒:”恕字须带规矩,不是纵容到底。”现实中需注意:医生强忍悲痛告知患者实情,教师严格要求学生,这些看似”施人所不欲”,实则是更高层次的”仁”。故王阳明补充:”知是行的主意,行是知的功夫”,要将同理心与智慧判断相结合。

此八字真言穿越两千五百年仍焕发光彩,恰如苏轼所言:”旧书不厌百回读,熟读深思子自知。”当我们能在人际交往中常存此念,便是踏上了”修身齐家治国平天下”的阶梯之始。