谷歌Gemini Live免费开放屏幕与摄像头共享功能

原文链接:

You don’t have to pay for Google Gemini to comment on what you’re looking at on
your phone anymore


by:
Eric Hal Schwartz


谷歌Gemini Live免费开放屏幕与摄像头共享功能

1. 功能开放:谷歌突然改变原定付费计划,宣布Gemini Live的屏幕和摄像头共享功能将免费向所有Android用户开放,无需订阅或Pixel设备,只需安装Gemini应用。

2. 核心能力:用户可通过实时屏幕共享(如网页、表格或设置界面)或摄像头识别(如商品标签、棋盘等)获取AI即时帮助,实现视觉交互。

3. 政策转变:该功能最初仅限Gemini Advanced订阅用户及特定机型(如Pixel 9),因用户反馈积极,谷歌决定全面免费开放,未来几周覆盖所有Android设备。

4. 生态优势:相比微软需通过Edge浏览器使用的Copilot Vision,Gemini Live直接集成至Android系统,无需额外启动应用,体验更无缝。

5. 行业影响:谷歌的免费策略重新定义了“付费AI”的边界,引发对”高级功能是否值得付费”的讨论,目前AI工具正加速走向免费化。

OpenAI多款AI模型性能对比测试摘要

原文链接:

ChatGPT model matchup – I pitted OpenAI’s o3, o4-mini, GPT-4o, and GPT-4.5 AI
models against each other and the results surprised me


by:
Eric Hal Schwartz


OpenAI多款AI模型性能对比测试摘要

1. 测试背景
OpenAI近期发布了o3和o4-mini两款新AI模型,与测试中的GPT-4.5及默认的GPT-4o共同构成复杂产品线。测试者通过四项日常场景任务对比了它们的表现。

2. 模型特性
o3:号称”天才中的天才”,擅长图像解析和逻辑推理
o4-mini:经济版,响应更快但性能稍弱
GPT-4.5:综合能力最强,兼具逻辑与共情
GPT-4o:原生多模态模型,功能全面但缺乏新模型的某些特性

3. 测试结果
• 数独测试:所有模型均能正确解答,o3/o4-mini展示数学推导,GPT-4o/4.5采用对话式解释。面对错误题目时,GPT-4o异常生成全零答案表。

• 诗歌创作:要求按字母顺序写季节诗。o3唯一不押韵,GPT-4.5作品被评价”迷人”,其余模型产出适合贺卡的平淡作品。

• 食谱推荐:o3提供结构化菜谱表格,o4-mini方案简洁,GPT-4o意外简短,GPT-4.5则生成包含五道菜的完整菜单,其中芒果薄荷冰沙配方备受期待。

• 文化翻译:翻译英语谚语”raining cats and dogs”时,所有模型均指出日语需用”倾盆大雨”替代,GPT-4.5额外说明直译问题,GPT-4o则过度使用表情符号。

4. 总体评价
各模型在常规场景下表现均合格,但特色鲜明:
– o3最精准分析型
– o4-mini快速精简版
– GPT-4.5最拟人化
– GPT-4o偏爱表情符号
测试者特别推荐GPT-4.5的厨房应用潜力。

数字照片元数据与AI地理定位的隐私风险

原文链接:

You can’t hide from ChatGPT – new viral AI challenge can geo-locate you from
almost any photo – we tried it and it’s wild and worrisome


by:
Lance Ulanoff


数字照片元数据与AI地理定位的隐私风险

1. 照片元数据的敏感信息
数字照片的元数据包含相机技术参数和GPS定位信息,可能暴露拍摄者的具体位置。

2. GPT-o3的强大地理定位能力
最新GPT-o3模型即使在没有元数据的情况下,也能通过图像分析进行精准地理位置猜测,并展示其推理过程(如分割图像、分析细节等)。

3. 实际测试案例
– 成功案例:仅用24秒准确识别出佛得角圣莫尼卡海滩,通过分析海水颜色、沙滩质地等特征
– 失败案例:无法识别某书店位置,但展示了详细的推理过程
– 精确案例:通过建筑细节在56秒内定位到纽约42街Cipriani餐厅
– 局限案例:对安提瓜岛度假村定位偏差46英里

4. 隐私安全警示
这种技术意味着任何人上传到网络的数字照片都可能被用来追踪其位置历史,存在被雇主、当局等第三方利用的风险。

5. 建议
需谨慎考虑在社交媒体分享包含地理位置线索的照片,特别是敏感场所的影像。

《弗林效应逆转:人类智商下降的成因与影响》

原文链接:

The Reverse Flynn Effect — Why Has the Average IQ Been Decreasing Lately?


by:
Carl Williams


《弗林效应逆转:人类智商下降的成因与影响》

1. 现象定义
科学家发现过去几十年平均智商持续上升的”弗林效应“近年出现逆转,发达国家智商开始以每代2-4点的速度下降,这一现象被称为”逆弗林效应“。

2. 历史背景
新西兰学者James Flynn在1980年代发现,工业化国家平均智商每十年增长3-5点,归因于生活条件改善、教育普及和认知任务复杂化。

3. 五大成因
教育系统僵化:侧重记忆而非批判性思维培养
数字技术冲击:碎片化信息削弱深度思考能力
环境污染:微塑料/铅污染损害儿童脑发育
价值观变迁:娱乐化取代智力发展需求
生育率差异:高智商群体生育意愿降低

4. 社会影响
可能导致科技创新乏力、政策决策失误,未来经济将因高技术人才短缺面临挑战,最终影响整体文明发展进程。

5. 应对建议
需改革教育体系、重视环境治理、提升科学素养,通过系统性措施维持社会整体智力水平,避免陷入认知能力衰退的恶性循环。

刚刚,豆包1.5·深度思考模型上线,特供「视觉版本」,大模型多模态推理的时代真来了

原文链接:
刚刚,豆包1.5·深度思考模型上线,特供「视觉版本」,大模型多模态推理的时代真来了


1. 豆包大模型家族重磅升级
火山引擎发布「豆包1.5・深度思考模型」,包含语言版(Doubao-1.5-thinking-pro)和视觉版(Doubao-1.5-thinking-pro-vision)。语言版在数学推理、编程竞赛、科学推理等领域表现突出,视觉版支持多模态交互,能结合图像和文本进行深度分析。

2. 多模态能力成为标配
视觉版模型具备强大的视觉理解能力,可处理复杂任务如医疗影像分析、交通事故责任判定等。例如,能通过航拍图识别青海大柴旦翡翠湖,或协助医生分析CT影像生成初步诊断建议。

3. 文生图模型3.0突破
豆包文生图模型升级至3.0版本,实现三大突破:精准的中文小字排版、实拍级图像生成效果、2K高清直出。在权威榜单中跻身全球第一梯队,尤其在海报设计和人物生成上表现优异。

4. 视觉理解模型增强
新增3D定位和视频搜索能力,支持宠物监控等场景。例如,可快速定位视频中宠物的活动片段,毫秒级返回语义相关结果。

5. 生态工具与解决方案
火山引擎发布OS Agent解决方案、GUI Agent大模型(豆包1.5・UI-TARS)及AI云原生推理套件,助力企业低成本落地AI应用。UI-TARS模型在OS类测试中国内领先,支持图形界面智能交互。

6. 市场表现与技术领先
豆包大模型日均tokens调用量超12.7万亿,年增长106倍。火山引擎以46.4%市场份额居中国公有云大模型市场第一,技术能力覆盖复杂企业场景分析。

腾讯开启史上最大就业计划,三年新增 28000校招岗位,今年六成面向技术人才

原文链接:
腾讯开启史上最大就业计划,三年新增 28000校招岗位,今年六成面向技术人才


1. 腾讯启动史上最大就业计划:三年内新增28000个实习岗位,2025年将招10000名校招实习生,其中60%面向技术人才。

2. 岗位覆盖广泛:涵盖技术、产品、设计、市场、职能等五大类70余种岗位,技术类占比超60%,重点包括人工智能、大数据、云计算等领域。

3. 技术人才占比高:腾讯现有55000名正式员工,科技类人才超40000人(73%),其中27000人直接从事技术研发。

4. 全球化招聘布局:工作地覆盖深圳、北京等国内六大城市及新加坡、美国等20多个国家和地区。

5. 校园招聘力度大:已进入36所高校宣讲,线上宣讲会覆盖超40万人才,推出”青云计划”专项培养大模型等领域人才。

6. 生态带动就业:微信生态已创造超5000万个就业机会,腾讯将持续为青年人才提供发展平台。

联想展示 AI换脸防诈技术,精准识别 Deepfake伪造视频

原文链接:
联想展示 AI换脸防诈技术,精准识别 Deepfake伪造视频


1. AI技术发展带来的双面影响
人工智能和大模型技术(如DeepSeek)快速普及,为生活带来便利的同时,AI换脸诈骗等滥用行为成为新型网络安全威胁,其隐蔽性和危害性引发两会代表呼吁立法整治。

2. 联想推出反诈技术解决方案
联想集团基于DeepSeek开源大模型开发“Deepfake深度伪造技术检测器”,具备96%准确率,可部署于AI PC本地运行,实时识别伪造视频/图像,已获四川省反诈中心等机构支持。

3. 技术原理与核心优势
• 采用深度学习算法分析人脸细微特征差异
• 5秒快速检测,支持跨平台运行(PC/手机/平板)
• 具备迭代升级能力,可应对Faceswap等新型伪造技术

4. 典型应用场景
• 在线会议实时身份验证
• 社交媒体虚假视频标记
• AI PC全场景风险预警

5. 社会价值与行业意义
该技术体现了联想“人本智能”理念,从个人防诈企业风控社会信任体系构建形成多维防护,贾朝晖强调需通过技术联盟应对这场”攻防拉锯战”。

CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原

原文链接:
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原


1. 研究背景与成果
南洋理工大学与商汤科技联合提出视频抠图新方法MatAnyone,由博士生杨沛青(CVPR/NeurIPS等多篇顶会论文作者)主导,周尚辰教授与吕建勤教授指导。该方法突破复杂场景下发丝级细节语义稳定性的挑战,相关论文及代码已开源。

2. 核心创新点
目标指定型抠图:仅需首帧掩膜标注,即可全视频稳定追踪目标
区域自适应记忆融合:动态区分变化区域(边缘依赖当前帧/主干保留记忆)
共头监督策略:直接利用分割数据优化抠图主头,提升语义稳定性
自建高质量数据集:VM800训练集(规模翻倍)与YouTubeMatte测试集(难度升级)

3. 技术优势对比
vs 无辅助方法(如RVM):避免多目标混淆(如背景行人误抠)
vs 辅助引导方法(如MaGGIe):仅需单帧标注,降低人工成本
视频抠图 vs 视频分割:额外预测透明度(alpha),要求更高细节精度

4. 应用场景
• 通用视频抠图(影视/直播背景替换)
• 实例抠图(多人物中指定目标)
• 高精度迭代优化(广告/影视后期)

5. 实验表现
VideoMatte/YouTubeMatte数据集上:
• MAD/MSE/dtSSD指标最优(语义及时序稳定性)
• Conn指标领先(视觉连贯性)
• 定性对比显示更优发丝细节与抗干扰能力

6. 未来方向
探索更高效训练策略、泛化数据构建及通用记忆机制,突破当前真实数据稀缺的限制。

报名开启|ICLR 2025新加坡,蚂蚁集团闭门研讨会、交流晚宴等你来!

原文链接:
报名开启|ICLR 2025新加坡,蚂蚁集团闭门研讨会、交流晚宴等你来!


1. ICLR 2025 论文录取情况

ICLR 2025 共接收 11,565 份投稿,收录率为 32.08%,其中 Spotlight 和 Oral Presentation 占比约 5.1%。蚂蚁集团表现亮眼,17 篇论文被收录,涵盖具身智能、强化学习、大模型优化等前沿领域,其中 1 篇入选 Spotlight。

2. 蚂蚁集团活动亮点

闭门研讨会:4月25日举行,嘉宾包括蚂蚁集团CTO何征宇、清华/浙大学者,分享技术成果与招聘计划。

星河之夜晚宴:4月26日于新加坡市中心,提供学术交流与海鲜盛宴。

展台互动:4月24-26日设展(Singapore EXPO Hall2 C10),可对话技术团队并探索职业机会。

3. 参与方式

扫描二维码预约活动,报名成功后将通过微信/邮件联系。蚂蚁集团诚邀技术先锋共话AI未来!

(注:原文链接及嘉宾头衔等细节已简化,核心信息保留并突出显示。)

Boom超音速公司XB-1首次超音速飞行突破及创新直播技术

原文链接:

Boom XB-1 Test Flight Went Supersonic, With iPhone and Starlink Helping
Livestream the Moment


by:
Isaiah Richard


Boom超音速公司XB-1首次超音速飞行突破及创新直播技术

1. 历史性突破:Boom Supersonic公司本周完成XB-1测试机首次超音速飞行,速度达1.22马赫(750英里/小时),成为美国首款民用超音速独立研发飞机,自2024年3月首飞后经11次载人测试突破音障。

2. 革命性直播技术:通过Apple iPhone镜头SpaceX星链迷你终端实现驾驶舱实时全球直播,解决T-38 chase plane无法搭载大型设备的难题(星链终端经马自达MX-5预先测试)。

3. 技术创新:XB-1基于Overture概念机设计,采用碳纤维复合材料数字稳定增强系统AR着陆视觉系统,CEO称”标志着客运超音速技术已成熟”。

4. 行业意义:FAA已批准其马赫级飞行许可,未来或实现纽约至上海40分钟航程,但当前仍属实验机型,距商用客机尚有距离。