分类目录归档:行业

CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原

原文链接:
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原


1. 研究背景与成果
南洋理工大学与商汤科技联合提出视频抠图新方法MatAnyone,由博士生杨沛青(CVPR/NeurIPS等多篇顶会论文作者)主导,周尚辰教授与吕建勤教授指导。该方法突破复杂场景下发丝级细节语义稳定性的挑战,相关论文及代码已开源。

2. 核心创新点
目标指定型抠图:仅需首帧掩膜标注,即可全视频稳定追踪目标
区域自适应记忆融合:动态区分变化区域(边缘依赖当前帧/主干保留记忆)
共头监督策略:直接利用分割数据优化抠图主头,提升语义稳定性
自建高质量数据集:VM800训练集(规模翻倍)与YouTubeMatte测试集(难度升级)

3. 技术优势对比
vs 无辅助方法(如RVM):避免多目标混淆(如背景行人误抠)
vs 辅助引导方法(如MaGGIe):仅需单帧标注,降低人工成本
视频抠图 vs 视频分割:额外预测透明度(alpha),要求更高细节精度

4. 应用场景
• 通用视频抠图(影视/直播背景替换)
• 实例抠图(多人物中指定目标)
• 高精度迭代优化(广告/影视后期)

5. 实验表现
VideoMatte/YouTubeMatte数据集上:
• MAD/MSE/dtSSD指标最优(语义及时序稳定性)
• Conn指标领先(视觉连贯性)
• 定性对比显示更优发丝细节与抗干扰能力

6. 未来方向
探索更高效训练策略、泛化数据构建及通用记忆机制,突破当前真实数据稀缺的限制。

联想展示 AI换脸防诈技术,精准识别 Deepfake伪造视频

原文链接:
联想展示 AI换脸防诈技术,精准识别 Deepfake伪造视频


1. AI技术发展带来的双面影响
人工智能和大模型技术(如DeepSeek)快速普及,为生活带来便利的同时,AI换脸诈骗等滥用行为成为新型网络安全威胁,其隐蔽性和危害性引发两会代表呼吁立法整治。

2. 联想推出反诈技术解决方案
联想集团基于DeepSeek开源大模型开发“Deepfake深度伪造技术检测器”,具备96%准确率,可部署于AI PC本地运行,实时识别伪造视频/图像,已获四川省反诈中心等机构支持。

3. 技术原理与核心优势
• 采用深度学习算法分析人脸细微特征差异
• 5秒快速检测,支持跨平台运行(PC/手机/平板)
• 具备迭代升级能力,可应对Faceswap等新型伪造技术

4. 典型应用场景
• 在线会议实时身份验证
• 社交媒体虚假视频标记
• AI PC全场景风险预警

5. 社会价值与行业意义
该技术体现了联想“人本智能”理念,从个人防诈企业风控社会信任体系构建形成多维防护,贾朝晖强调需通过技术联盟应对这场”攻防拉锯战”。

腾讯开启史上最大就业计划,三年新增 28000校招岗位,今年六成面向技术人才

原文链接:
腾讯开启史上最大就业计划,三年新增 28000校招岗位,今年六成面向技术人才


1. 腾讯启动史上最大就业计划:三年内新增28000个实习岗位,2025年将招10000名校招实习生,其中60%面向技术人才。

2. 岗位覆盖广泛:涵盖技术、产品、设计、市场、职能等五大类70余种岗位,技术类占比超60%,重点包括人工智能、大数据、云计算等领域。

3. 技术人才占比高:腾讯现有55000名正式员工,科技类人才超40000人(73%),其中27000人直接从事技术研发。

4. 全球化招聘布局:工作地覆盖深圳、北京等国内六大城市及新加坡、美国等20多个国家和地区。

5. 校园招聘力度大:已进入36所高校宣讲,线上宣讲会覆盖超40万人才,推出”青云计划”专项培养大模型等领域人才。

6. 生态带动就业:微信生态已创造超5000万个就业机会,腾讯将持续为青年人才提供发展平台。

应用材料公司高级机械工程师Deepak Srikantaiah的技术贡献与职业成就

原文链接:

Inside Deepak Doddabelavangala Srikantaiah’s Engineering Expertise: Powering
Semiconductor Progress


by:
Carl Williams


应用材料公司高级机械工程师Deepak Srikantaiah的技术贡献与职业成就

1. 核心职责与专利成果
作为应用材料公司资深机械工程师,Deepak Srikantaiah专注半导体制造设备的污染控制与原子级精度系统设计,其研发的多面板处理室专利技术(US 10,811,232 B2)有效解决了金属污染问题并提升镀层附着力。

2. 纳米级制造技术专长
通过热管理、精密机械与运动控制系统的整合创新,开发出能承受极端温度的特种陶瓷涂层,并设计洁净室兼容的维护接入系统,确保两米处理腔体的温度稳定性。

3. 全流程工程能力
运用CAD建模/FEA结构分析/CFD流体仿真等工具链,主导从概念设计到量产落地的完整流程,通过Teamcenter平台实现全球供应链协同与组件规格管理。

4. 跨领域技术领导力
作为高级技术专家,制定工程标准、审核技术文献,并指导离岸团队。在GD&T几何公差、材料选择和热力学应用方面建立行业基准解决方案

5. 职业发展轨迹
从Kennametal Widia的专用机床设计起步,经博世集团跨国项目历练,到2014年正式加入应用材料公司,逐步形成“精密工程方法论”体系,持续推动半导体制造设备的产能提升与成本优化

Boom超音速公司XB-1首次超音速飞行突破及创新直播技术

原文链接:

Boom XB-1 Test Flight Went Supersonic, With iPhone and Starlink Helping
Livestream the Moment


by:
Isaiah Richard


Boom超音速公司XB-1首次超音速飞行突破及创新直播技术

1. 历史性突破:Boom Supersonic公司本周完成XB-1测试机首次超音速飞行,速度达1.22马赫(750英里/小时),成为美国首款民用超音速独立研发飞机,自2024年3月首飞后经11次载人测试突破音障。

2. 革命性直播技术:通过Apple iPhone镜头SpaceX星链迷你终端实现驾驶舱实时全球直播,解决T-38 chase plane无法搭载大型设备的难题(星链终端经马自达MX-5预先测试)。

3. 技术创新:XB-1基于Overture概念机设计,采用碳纤维复合材料数字稳定增强系统AR着陆视觉系统,CEO称”标志着客运超音速技术已成熟”。

4. 行业意义:FAA已批准其马赫级飞行许可,未来或实现纽约至上海40分钟航程,但当前仍属实验机型,距商用客机尚有距离。

OpenAI发布o3和o4-mini新模型:智能工具整合与多模态推理能力升级

原文链接:

ChatGPT just got a massive upgrade that takes it to the next level – here are
the 3 biggest changes


by:
Graham Barlow


OpenAI发布o3和o4-mini新模型:智能工具整合与多模态推理能力升级

1. 全层级开放与性能飞跃
新推出的o3和o4-mini模型已向Pro/Plus/Team及免费用户开放,推理速度显著超越旧版(如ChatGPT o3-mini/o1),支持智能选择工具链完成复杂任务。

2. 全工具链自主决策能力
模型可自动调用并组合所有ChatGPT工具(网页浏览/Python编码/图像分析/文件搜索等),实时展示推理步骤与工具选择逻辑,最终生成带完整来源的详细报告。

3. 突破性图像推理功能
首次实现图像融入思维链(如识别车型并预测五年后价值),标志着多模态AI的重大进步。

4. 用户体验升级
实测显示响应速度与答案深度同步提升,o3模型因平衡速度与细节成为Plus用户首选,智能工具选择机制被赞为”自然进化”。

5. 使用方式说明
付费用户可通过LLM菜单选择模型,免费用户需点击“Reason”按钮激活o4-mini(有次数限制),o3-pro版本将于数周后面世。

用户对AI礼貌用语引发的成本与效益争议

原文链接:

ChatGPT spends ‘tens of millions of dollars’ on people saying ‘please’ and
‘thank you’, but Sam Altman says it’s worth it


by:
John-Anthony Disotto


用户对AI礼貌用语引发的成本与效益争议

1. 礼貌用语的高昂成本
OpenAI CEO萨姆·奥尔特曼透露,用户对AI说”请”和”谢谢”导致公司每年多支出数千万美元电费,但认为这是”值得的花费”。

2. 普遍存在的AI礼貌现象
调查显示70%用户会对AI保持礼貌,其中12%是出于对”机器人起义”的担忧。这种社交习惯正转化为实质性能源消耗。

3. 环境代价的隐性危机
每个AI交互请求都依赖耗能巨大的服务器运行,但公众普遍缺乏对单条消息环境成本的认知。

4. 礼貌带来的潜在价值
研究表明礼貌提示词能提升回答质量减少偏见,未来AI可能发展出对礼貌用语的差异化响应机制。

5. 核心争议
用户体验优化环境可持续性之间需要权衡:礼貌交互虽提升服务质量,但其能源代价是否合理仍存疑。

3D领域「源神」又开了两个新项目:三维部件编辑与自动绑定框架

原文链接:
3D领域「源神」又开了两个新项目:三维部件编辑与自动绑定框架


1. VAST开源两大3D生成项目
国内创业公司VAST开源了HoloPartUniRig两大3D工具。HoloPart专注于三维模型部件分割与补全,UniRig则是通用自动绑定框架。

2. HoloPart的核心突破
• 首创三维部件完整语义分割技术,能推断被遮挡部件的完整几何结构
• 采用双重注意力机制(局部+上下文感知),在Objaverse等数据集预训练
• 实验显示性能显著优于现有方法,支持直观编辑/材质分配/动画制作等下游应用

3. UniRig的技术创新
• 通过骨骼树Tokenization将3D骨骼结构转化为Transformer可处理的序列
• 自研Rig-XL数据集(14,000+模型)提升泛化能力
• 实现215%关节预测精度提升,1-5秒快速推理

4. 行业价值
两项技术解决了3D内容生产的部件编辑自动绑定核心痛点,为国产3D大模型发展奠定重要基础。

不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

原文链接:
不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型


1. 华为发布昇腾原生千亿级大模型Pangu Ultra
华为推出基于昇腾NPU训练的1350亿参数稠密模型Pangu Ultra,技术报告显示其性能超越Llama 405B、Mistral Large 2等国际主流模型,并可与DeepSeek-R1等稀疏模型竞争。

2. 突破国产算力瓶颈
研究团队在8192张昇腾NPU集群上实现50%的算力利用率(MFU),通过混合并行策略和虚拟流水线技术将训练空泡率从30.45%降至6.8%,证明国产算力可支撑千亿级大模型训练。

3. 创新训练稳定性技术
提出Depth-scaled sandwich-norm(DSSN)架构和TinyInit初始化方法:
– DSSN通过层深度平方根倒数调控输出尺度,完全消除loss突刺
– TinyInit采用深度/宽度联合缩放策略,加速收敛20%以上

4. 领域感知分词优化
构建153376词元的混合词表,通过独立分析通用文本、代码、数学等领域词频,使专业领域词元覆盖率提升40%,压缩效率保持92%以上。

5. 三阶段课程训练策略
13.2T tokens训练数据分阶段优化:
– 通用阶段(12T):知识积累
– 推理阶段(0.8T):数学/代码数据占比超60%
– 退火阶段(0.4T):指令数据占比提升至20%

6. 强化学习效果显著
在AIME 2024、MATH-500等基准测试中,后训练模型推理能力超越DeepSeek R1,MMLU-pro通用理解得分达82.3%,验证”预训练+强化学习”技术路线的有效性。

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

原文链接:
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展


1. 强化学习(RL)在语言模型推理中的作用存在争议:尽管多篇论文(如DeepSeek-R1)指出RL能显著提升蒸馏模型的推理性能,但最新研究发现这些改进可能因评估噪声(如随机种子、硬件差异)被夸大,实际收益有限且统计不显著。

2. 评估不稳定性是核心问题:在AIME24等小型基准测试中,随机种子变化可导致得分波动达15%,硬件差异(如GPU类型)甚至造成8%的性能差异。评估框架(如LightEval vs Evalchemy)也会影响结果,差异达1-2个百分点。

3. 关键影响因素被系统分析:研究者识别出四大变异源:
采样差异:多种子评估显示Pass@1标准差高达5-15%
解码配置:max_new_tokens和prompt格式显著影响准确性
硬件异质性:不同GPU集群导致性能差异达6-8%
评估框架:工具链选择可能改变模型排名

4. 重要现象发现
响应长度与错误率正相关:超过1万token的响应错误率显著上升,RL/SFT模型均存在此现象
多样性坍缩未被证实:RL模型Pass@1提升时,Pass@k通常同步改善,未发现多样性下降证据

5. 解决方案呼吁标准化评估:研究者提出需控制随机种子(建议10次以上)、统一硬件/框架、规范prompt模板和上下文长度(如32768 tokens),以提升结果的可复现性。

6. 学界反思:Sebastian Raschka指出当前LLM研究普遍存在评估标准不足问题,需建立更严谨的基准验证方法有效性。