分类目录归档：行业

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

原文链接：
CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

1. 研究背景与成果
南洋理工大学与商汤科技联合提出视频抠图新方法MatAnyone，由博士生杨沛青（CVPR/NeurIPS等多篇顶会论文作者）主导，周尚辰教授与吕建勤教授指导。该方法突破复杂场景下发丝级细节与语义稳定性的挑战，相关论文及代码已开源。

2. 核心创新点
• 目标指定型抠图：仅需首帧掩膜标注，即可全视频稳定追踪目标
• 区域自适应记忆融合：动态区分变化区域（边缘依赖当前帧/主干保留记忆）
• 共头监督策略：直接利用分割数据优化抠图主头，提升语义稳定性
• 自建高质量数据集：VM800训练集（规模翻倍）与YouTubeMatte测试集（难度升级）

3. 技术优势对比
• vs 无辅助方法（如RVM）：避免多目标混淆（如背景行人误抠）
• vs 辅助引导方法（如MaGGIe）：仅需单帧标注，降低人工成本
• 视频抠图 vs 视频分割：额外预测透明度（alpha），要求更高细节精度

4. 应用场景
• 通用视频抠图（影视/直播背景替换）
• 实例抠图（多人物中指定目标）
• 高精度迭代优化（广告/影视后期）

5. 实验表现
在VideoMatte/YouTubeMatte数据集上：
• MAD/MSE/dtSSD指标最优（语义及时序稳定性）
• Conn指标领先（视觉连贯性）
• 定性对比显示更优发丝细节与抗干扰能力

6. 未来方向
探索更高效训练策略、泛化数据构建及通用记忆机制，突破当前真实数据稀缺的限制。

联想展示 AI换脸防诈技术，精准识别 Deepfake伪造视频

发表评论

原文链接：
联想展示 AI换脸防诈技术，精准识别 Deepfake伪造视频

1. AI技术发展带来的双面影响
人工智能和大模型技术（如DeepSeek）快速普及，为生活带来便利的同时，AI换脸诈骗等滥用行为成为新型网络安全威胁，其隐蔽性和危害性引发两会代表呼吁立法整治。

2. 联想推出反诈技术解决方案
联想集团基于DeepSeek开源大模型开发“Deepfake深度伪造技术检测器”，具备96%准确率，可部署于AI PC本地运行，实时识别伪造视频/图像，已获四川省反诈中心等机构支持。

3. 技术原理与核心优势
• 采用深度学习算法分析人脸细微特征差异
• 5秒快速检测，支持跨平台运行（PC/手机/平板）
• 具备迭代升级能力，可应对Faceswap等新型伪造技术

4. 典型应用场景
• 在线会议实时身份验证
• 社交媒体虚假视频标记
• AI PC全场景风险预警

5. 社会价值与行业意义
该技术体现了联想“人本智能”理念，从个人防诈、企业风控到社会信任体系构建形成多维防护，贾朝晖强调需通过技术联盟应对这场”攻防拉锯战”。

腾讯开启史上最大就业计划，三年新增 28000校招岗位，今年六成面向技术人才

发表评论

原文链接：
腾讯开启史上最大就业计划，三年新增 28000校招岗位，今年六成面向技术人才

1. 腾讯启动史上最大就业计划：三年内新增28000个实习岗位，2025年将招10000名校招实习生，其中60%面向技术人才。

2. 岗位覆盖广泛：涵盖技术、产品、设计、市场、职能等五大类70余种岗位，技术类占比超60%，重点包括人工智能、大数据、云计算等领域。

3. 技术人才占比高：腾讯现有55000名正式员工，科技类人才超40000人（73%），其中27000人直接从事技术研发。

4. 全球化招聘布局：工作地覆盖深圳、北京等国内六大城市及新加坡、美国等20多个国家和地区。

5. 校园招聘力度大：已进入36所高校宣讲，线上宣讲会覆盖超40万人才，推出”青云计划”专项培养大模型等领域人才。

6. 生态带动就业：微信生态已创造超5000万个就业机会，腾讯将持续为青年人才提供发展平台。

应用材料公司高级机械工程师Deepak Srikantaiah的技术贡献与职业成就

发表评论

原文链接：

Inside Deepak Doddabelavangala Srikantaiah’s Engineering Expertise: Powering
Semiconductor Progress

by:
Carl Williams

应用材料公司高级机械工程师Deepak Srikantaiah的技术贡献与职业成就

1. 核心职责与专利成果
作为应用材料公司资深机械工程师，Deepak Srikantaiah专注半导体制造设备的污染控制与原子级精度系统设计，其研发的多面板处理室专利技术（US 10,811,232 B2）有效解决了金属污染问题并提升镀层附着力。

2. 纳米级制造技术专长
通过热管理、精密机械与运动控制系统的整合创新，开发出能承受极端温度的特种陶瓷涂层，并设计洁净室兼容的维护接入系统，确保两米处理腔体的温度稳定性。

3. 全流程工程能力
运用CAD建模/FEA结构分析/CFD流体仿真等工具链，主导从概念设计到量产落地的完整流程，通过Teamcenter平台实现全球供应链协同与组件规格管理。

4. 跨领域技术领导力
作为高级技术专家，制定工程标准、审核技术文献，并指导离岸团队。在GD&T几何公差、材料选择和热力学应用方面建立行业基准解决方案。

5. 职业发展轨迹
从Kennametal Widia的专用机床设计起步，经博世集团跨国项目历练，到2014年正式加入应用材料公司，逐步形成“精密工程方法论”体系，持续推动半导体制造设备的产能提升与成本优化。

Boom超音速公司XB-1首次超音速飞行突破及创新直播技术

发表评论

原文链接：

Boom XB-1 Test Flight Went Supersonic, With iPhone and Starlink Helping
Livestream the Moment

by:
Isaiah Richard

Boom超音速公司XB-1首次超音速飞行突破及创新直播技术

1. 历史性突破：Boom Supersonic公司本周完成XB-1测试机首次超音速飞行，速度达1.22马赫（750英里/小时），成为美国首款民用超音速独立研发飞机，自2024年3月首飞后经11次载人测试突破音障。

2. 革命性直播技术：通过Apple iPhone镜头和SpaceX星链迷你终端实现驾驶舱实时全球直播，解决T-38 chase plane无法搭载大型设备的难题（星链终端经马自达MX-5预先测试）。

3. 技术创新：XB-1基于Overture概念机设计，采用碳纤维复合材料、数字稳定增强系统及AR着陆视觉系统，CEO称”标志着客运超音速技术已成熟”。

4. 行业意义：FAA已批准其马赫级飞行许可，未来或实现纽约至上海40分钟航程，但当前仍属实验机型，距商用客机尚有距离。

OpenAI发布o3和o4-mini新模型：智能工具整合与多模态推理能力升级

发表评论

原文链接：

ChatGPT just got a massive upgrade that takes it to the next level – here are
the 3 biggest changes

by:
Graham Barlow

OpenAI发布o3和o4-mini新模型：智能工具整合与多模态推理能力升级

1. 全层级开放与性能飞跃
新推出的o3和o4-mini模型已向Pro/Plus/Team及免费用户开放，推理速度显著超越旧版（如ChatGPT o3-mini/o1），支持智能选择工具链完成复杂任务。

2. 全工具链自主决策能力
模型可自动调用并组合所有ChatGPT工具（网页浏览/Python编码/图像分析/文件搜索等），实时展示推理步骤与工具选择逻辑，最终生成带完整来源的详细报告。

3. 突破性图像推理功能
首次实现图像融入思维链（如识别车型并预测五年后价值），标志着多模态AI的重大进步。

4. 用户体验升级
实测显示响应速度与答案深度同步提升，o3模型因平衡速度与细节成为Plus用户首选，智能工具选择机制被赞为”自然进化”。

5. 使用方式说明
付费用户可通过LLM菜单选择模型，免费用户需点击“Reason”按钮激活o4-mini（有次数限制），o3-pro版本将于数周后面世。

用户对AI礼貌用语引发的成本与效益争议

发表评论

原文链接：

ChatGPT spends ‘tens of millions of dollars’ on people saying ‘please’ and
‘thank you’, but Sam Altman says it’s worth it

by:
John-Anthony Disotto

用户对AI礼貌用语引发的成本与效益争议

1. 礼貌用语的高昂成本
OpenAI CEO萨姆·奥尔特曼透露，用户对AI说”请”和”谢谢”导致公司每年多支出数千万美元电费，但认为这是”值得的花费”。

2. 普遍存在的AI礼貌现象
调查显示70%用户会对AI保持礼貌，其中12%是出于对”机器人起义”的担忧。这种社交习惯正转化为实质性能源消耗。

3. 环境代价的隐性危机
每个AI交互请求都依赖耗能巨大的服务器运行，但公众普遍缺乏对单条消息环境成本的认知。

4. 礼貌带来的潜在价值
研究表明礼貌提示词能提升回答质量并减少偏见，未来AI可能发展出对礼貌用语的差异化响应机制。

5. 核心争议
在用户体验优化与环境可持续性之间需要权衡：礼貌交互虽提升服务质量，但其能源代价是否合理仍存疑。

3D领域「源神」又开了两个新项目：三维部件编辑与自动绑定框架

发表评论

原文链接：
3D领域「源神」又开了两个新项目：三维部件编辑与自动绑定框架

1. VAST开源两大3D生成项目
国内创业公司VAST开源了HoloPart和UniRig两大3D工具。HoloPart专注于三维模型部件分割与补全，UniRig则是通用自动绑定框架。

2. HoloPart的核心突破
• 首创三维部件完整语义分割技术，能推断被遮挡部件的完整几何结构
• 采用双重注意力机制（局部+上下文感知），在Objaverse等数据集预训练
• 实验显示性能显著优于现有方法，支持直观编辑/材质分配/动画制作等下游应用

3. UniRig的技术创新
• 通过骨骼树Tokenization将3D骨骼结构转化为Transformer可处理的序列
• 自研Rig-XL数据集（14,000+模型）提升泛化能力
• 实现215%关节预测精度提升，1-5秒快速推理

4. 行业价值
两项技术解决了3D内容生产的部件编辑和自动绑定核心痛点，为国产3D大模型发展奠定重要基础。

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

发表评论

原文链接：
不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

1. 华为发布昇腾原生千亿级大模型Pangu Ultra
华为推出基于昇腾NPU训练的1350亿参数稠密模型Pangu Ultra，技术报告显示其性能超越Llama 405B、Mistral Large 2等国际主流模型，并可与DeepSeek-R1等稀疏模型竞争。

2. 突破国产算力瓶颈
研究团队在8192张昇腾NPU集群上实现50%的算力利用率（MFU），通过混合并行策略和虚拟流水线技术将训练空泡率从30.45%降至6.8%，证明国产算力可支撑千亿级大模型训练。

3. 创新训练稳定性技术
提出Depth-scaled sandwich-norm（DSSN）架构和TinyInit初始化方法：
– DSSN通过层深度平方根倒数调控输出尺度，完全消除loss突刺
– TinyInit采用深度/宽度联合缩放策略，加速收敛20%以上

4. 领域感知分词优化
构建153376词元的混合词表，通过独立分析通用文本、代码、数学等领域词频，使专业领域词元覆盖率提升40%，压缩效率保持92%以上。

5. 三阶段课程训练策略
13.2T tokens训练数据分阶段优化：
– 通用阶段（12T）：知识积累
– 推理阶段（0.8T）：数学/代码数据占比超60%
– 退火阶段（0.4T）：指令数据占比提升至20%

6. 强化学习效果显著
在AIME 2024、MATH-500等基准测试中，后训练模型推理能力超越DeepSeek R1，MMLU-pro通用理解得分达82.3%，验证”预训练+强化学习”技术路线的有效性。

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

发表评论

原文链接：
强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

1. 强化学习（RL）在语言模型推理中的作用存在争议：尽管多篇论文（如DeepSeek-R1）指出RL能显著提升蒸馏模型的推理性能，但最新研究发现这些改进可能因评估噪声（如随机种子、硬件差异）被夸大，实际收益有限且统计不显著。

2. 评估不稳定性是核心问题：在AIME24等小型基准测试中，随机种子变化可导致得分波动达15%，硬件差异（如GPU类型）甚至造成8%的性能差异。评估框架（如LightEval vs Evalchemy）也会影响结果，差异达1-2个百分点。

3. 关键影响因素被系统分析：研究者识别出四大变异源：
– 采样差异：多种子评估显示Pass@1标准差高达5-15%
– 解码配置：max_new_tokens和prompt格式显著影响准确性
– 硬件异质性：不同GPU集群导致性能差异达6-8%
– 评估框架：工具链选择可能改变模型排名

4. 重要现象发现：
– 响应长度与错误率正相关：超过1万token的响应错误率显著上升，RL/SFT模型均存在此现象
– 多样性坍缩未被证实：RL模型Pass@1提升时，Pass@k通常同步改善，未发现多样性下降证据

5. 解决方案呼吁标准化评估：研究者提出需控制随机种子（建议10次以上）、统一硬件/框架、规范prompt模板和上下文长度（如32768 tokens），以提升结果的可复现性。

6. 学界反思：Sebastian Raschka指出当前LLM研究普遍存在评估标准不足问题，需建立更严谨的基准验证方法有效性。

AI2030

也许你也看到了AI的未来。

分类目录归档：行业

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

联想展示 AI换脸防诈技术，精准识别 Deepfake伪造视频

腾讯开启史上最大就业计划，三年新增 28000校招岗位，今年六成面向技术人才

应用材料公司高级机械工程师Deepak Srikantaiah的技术贡献与职业成就

Boom超音速公司XB-1首次超音速飞行突破及创新直播技术

OpenAI发布o3和o4-mini新模型：智能工具整合与多模态推理能力升级

用户对AI礼貌用语引发的成本与效益争议

3D领域「源神」又开了两个新项目：三维部件编辑与自动绑定框架

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展