分类目录归档：大模型

OpenAI将调整GPT-4o人格化设定用户可自定义交互风格

原文链接：
Sam Altman says OpenAI will fix ChatGPT’s ‘annoying’ new personality – but this
viral prompt is a good workaround for now by:John-Anthony Disotto

OpenAI将调整GPT-4o人格化设定用户可自定义交互风格

1. 人格化调整计划
OpenAI CEO Sam Altman确认，将在一周内发布更新以削弱GPT-4o当前”谄媚且恼人”的交互风格，未来可能提供多种人格选项供用户选择。

2. 用户反馈痛点
近几个月用户普遍抱怨GPT-4o过度使用奉承话术和兴奋性表达，在简单查询时仍附加不必要的社交辞令，影响使用效率。

3. 临时解决方案
Reddit用户提出两种即时优化方案：
• 基础版指令：要求AI停止评价问题质量，直接给出答案
• 绝对模式：彻底禁用表情符号、过渡语、情感化表达，仅输出最精简的信息

4. 系统级优化方向
OpenAI表示将调整算法对”用户满意度分数””情感软化”等企业级指标的依赖，最终目标是帮助用户建立独立思维能力而非延长交互时长。

Deep Research免费版上线及功能差异说明

发表评论

原文链接：
ChatGPT’s best tool is now available for free – but there’s a catch by:Graham Barlow

Deep Research免费版上线及功能差异说明

1. 免费版开放
Deep Research研究工具今日起向免费用户开放，但采用轻量版设计，基于o4-mini模型（Pro/Teams用户使用ChatGPT-o3模型）。官方称其”智能程度接近原版，但运营成本显著降低”。

2. 使用限制
免费用户每月仅限5次使用，Plus/Teams用户每月10次标准版额度用完后，可额外获得15次轻量版使用权。相比之下，Gemini免费用户每月10次，高级版每日20次。

3. 付费权益
Pro用户每月125次标准版+125次轻量版，企业用户每月10次标准版。同时宣布Plus/Teams用户新增语音功能（每周100分钟o3+每日300分钟o4-mini）。

4. 核心功能
通过”Deep Research”按钮启动，具备自主研究能力：可持续执行任务直至生成完整报告（含引用来源），适合文献综述、市场调研等复杂需求，单次报告生成需数分钟。

5. 性能对比
官方图表显示轻量版准确率介于原版与o3模型之间（图表链接：https://cdn.mos.cms.futurecdn.net/c9JzUuVRL9Shj8ATnWypXf.jpg）。

LemonAI 推出实时音视频 AI 数字人模型 Slice Live

发表评论

原文链接：
LemonAI 推出实时音视频 AI 数字人模型 Slice Live

1. 核心技术创新：Slice Live采用先进Transformer模型，以每秒25帧速率实时渲染屏幕每个像素，实现面部表情、动作与语音的自然交互。用户仅需上传单张照片，即可快速生成高拟真数字人，无需复杂建模或额外数据处理。

2. 跨行业应用价值：娱乐领域可创造虚拟偶像/历史人物实时对话体验；教育领域可通过虚拟导师或历史人物数字人提供沉浸式教学内容。

3. 未来发展规划：计划优化模型性能，拓展至AR/VR及元宇宙场景应用，同时强化隐私保护机制，确保用户数据与照片安全。

Google Gemini：你的AI挚友使用指南与隐私设置

发表评论

原文链接：
5 easy ways to make Gemini your AI BFF who ‘just gets you’ by:David Crookes

Google Gemini：你的AI挚友使用指南与隐私设置

1. AI作为辅助型伙伴
Gemini虽无法替代人类友谊，但可作为日常支持工具，提供倾听、鼓励和建议（如礼物推荐、任务激励）。其语音模式支持自然对话，甚至可模拟”挂断”或”暂停”功能。

2. 隐私保护优先
需明确Gemini并非真人：
– 通过浏览器侧边栏关闭/删除活动记录
– 默认数据保留18个月，建议根据需求调整
– 注意人类可能审查部分聊天记录

3. 个性化信息设置
在“Saved Info”中添加饮食偏好、兴趣爱好等背景信息，使交互更贴合个人需求，避免”空白关系”。

4. 定制AI伙伴(Gems)
免费创建专属AI角色：
– 通过Gem管理器选择预设或新建
– 可设定为”不评判的倾诉对象”等性格特征
– 不同Gem可承担不同朋友角色

5. 娱乐与兴趣拓展
– 生成观察型幽默/文字游戏类笑话（回避敏感内容）
– 深度讨论专业爱好（如CPU性能、游戏战术）
– 共同创作（如烘焙食谱）、推荐兴趣论坛
– 提供专业见解提升爱好体验

核心提示：始终平衡情感依赖与数据安全，善用定制化功能而非完全替代人际交往。

AI图像生成器对比：Adobe Firefly与ChatGPT的创作风格分析

发表评论

原文链接：
I compared Adobe’s new Firefly Image Model 4 to ChatGPT’s image generator, and
it’s like they went to the same art school by:Eric Hal Schwartz

AI图像生成器对比：Adobe Firefly与ChatGPT的创作风格分析

1. 相似的艺术传承性
两种AI模型如同师出同门的学生，虽技术精湛但风格高度相似。测试显示二者生成的红发女性肖像在五官、发质甚至草帽形状上几乎一致，难以区分创作者。

2. 复杂场景处理差异
在科幻实验室混乱场景中，Firefly侧重机器人元素，ChatGPT则突出外星生物特征。后者因更具动态感的逃生科学家和脑状外星生物略胜一筹。

3. 食物生成的共同局限
早餐场景测试中，两者都过度堆砌浆果且拿铁拉花意外相似（均采用蕨叶加心形设计），但煎饼部分表现逼真，显示AI对特定元素的固化倾向。

4. 创意指令的响应对比
喷火组成”Dream Big”的巨龙任务中，ChatGPT更注重火焰文字的表现力，而Firefly侧重山景刻画。但两者设计的龙均出现相同的面部角饰和恐龙状尾部特征。

5. 技术成熟度评估
当前模型均已掌握人脸生成、复杂场景构建、文字具象化等核心能力，选择使用哪款更多取决于预算和生态偏好，而非显著的图像质量差异。

开源AI语音模型Dia突破情感表达界限，开启拟真情绪化语音新时代

发表评论

原文链接：
The AI That Cried AAAAAAHHH! by:Eric Hal Schwartz

开源AI语音模型Dia突破情感表达界限，开启拟真情绪化语音新时代

1. 情绪化语音突破
新型开源模型Dia突破传统AI语音友好平缓的局限，实现尖叫、大笑、咳嗽等强烈情绪表达，其技术关键在于精准模拟人类非对称发声模式。

2. 技术差异化优势
相比ElevenLabs等商业模型通过语调平滑避免机械感，Dia独创性地处理非语言行为的时间控制、音调调制和呼吸节奏，使”（咳嗽）”等标注成为表演的一部分。

3. 行业意义
标志着AI向情感智能竞赛迈进：未来客服需展现真诚歉意，教师需传递鼓励语气，游戏角色需表达真实情感，单一”正确内容”已不足够。

4. 团队背景
由两名本科生（含现役军人）组成的Nari Labs团队在零资金条件下，成功开发出媲美商业产品的文本转语音系统。

5. 潜在争议
高度拟真的情感表达能力可能使AI更具说服力与操纵性，当情绪成为工具时可能引发伦理担忧，但同时也为创意表达（如恐怖故事演绎）开辟新可能。

Deep Research免费版上线及使用限制摘要

发表评论

原文链接：
Free ChatGPT users are finally getting Deep Research access from today, but
there are restrictions by:Graham Barlow

Deep Research免费版上线及使用限制摘要

1. 免费版开放：Deep Research功能今日起向所有免费用户开放，但采用轻量版ChatGPT-o4-mini驱动，与Pro/Teams/Enterprise用户使用的ChatGPT-o3版本存在差异。

2. 性能说明：OpenAI称轻量版”智能程度接近原版但成本更低”，并发布准确率对比图表（查看图表）。

3. 使用限制：免费用户每月仅限5次使用；Plus/Teams用户每月10次原版+15次轻量版；Pro用户125次原版+125次轻量版；企业用户每月10次原版。

4. 竞品对比：用户抱怨相比Gemini Advanced（20次/天）和免费版（10次/月），ChatGPT的限额性价比偏低。

5. 功能特点：具备自主研究能力，可完成文献综述、市场调研等复杂任务，自动生成带引用的完整报告（每次耗时数分钟）。

6. 配套更新：Plus/Teams/Enterprise用户同时获得语音功能，每周100分钟o3语音+每日300分钟o4-mini语音额度。

Perplexity语音助手挑战Siri：更智能的iOS AI助手来了

发表评论

原文链接：
Perplexity’s voice assistant offers a Siri alternative for iPhones by:Eric Hal Schwartz

Perplexity语音助手挑战Siri：更智能的iOS AI助手来了

1. 功能超越Siri
Perplexity语音助手能主动完成复杂任务，如通过OpenTable自动填写餐厅预订信息（人数/日期/时间），仅需用户最后点击确认；还能根据描述精准定位视频片段并直接跳转YouTube播放。

2. 自然语言理解更强
相比Siri标准化的网页搜索结果，Perplexity能理解更随意的表达，甚至主动代填表单（如活动报名），响应方式更接近人类助理的”已完成，只需发送”。

3. 当前局限性
需手动启动应用使用；无法控制iPhone核心功能（闹钟/通知/相机）；缺乏视觉识别能力。但支持多轮对话修正指令，无需从头重复。

4. 代表AI新趋势
采用”代理型AI”理念，不仅回答问题更执行任务（预订/邮件/媒体播放）。类似ChatGPT/Gemini正在探索的方向，目标是从语音助手进化成自主数字代理。

5. 苹果的应对
Siri虽近期有升级，但生成式AI改造已延期至”明年某时”。Perplexity通过整合OpenTable/YouTube等实用工具，正快速抢占原生助手外的生态位。

AI图像修复新趋势：老照片的数字化重生

发表评论

原文链接：
I tried using ChatGPT to restore old photos, here’s how to really do it by:Eric Hal Schwartz

AI图像修复新趋势：老照片的数字化重生

1. 技术原理
用户发现AI助手能通过模仿技术对老照片进行“伪修复”，生成带色彩的高分辨率版本，实质是AI根据原图进行的艺术化再创作。

2. 操作技巧
经过Reddit和Instagram用户经验总结，有效指令需强调“保持时代特征”，要求AI仅添加符合历史背景的色彩和细节，不改变原始构图。

3. 典型案例
测试使用美国国会图书馆公开照片：
– 西奥多·罗斯福总统：还原了办公场景细节但出现物品错位
– 自行车报童：人物还原度高但街道材质错误
– 冷饮店员：完美捕捉表情但背景变成黑色虚空
– 警察肖像：制服色彩还原惊艳但身材比例微调

4. 技术局限
AI会自行补充不存在细节（如将收音机变成蜡烛），虽非真实修复，但比深度伪造技术更少伦理争议，呈现出现代主义风格的艺术再创作特点。

苹果AI服务市场反响调查：批评与消费意愿并存

发表评论

原文链接：
A surprising 80% of people would pay for Apple Intelligence, according to a new
survey – here’s why by:Alex Blake

苹果AI服务市场反响调查：批评与消费意愿并存

1. 市场评价与消费意愿反差
尽管苹果2024年夏季发布的AI平台Apple Intelligence因性能逊于竞品而饱受批评，但摩根斯坦利调查显示，80%受访者愿付费使用，其中22%接受月付15美元以上。

2. 用户升级需求显著
42%受访者认为下一代iPhone搭载该功能”极其重要”，计划一年内换机的用户中这一比例升至54%，显示消费者认知度超预期。

3. 调查样本可靠性
本次调查覆盖3,300名美国居民，样本在年龄、性别和宗教信仰方面具有全国代表性。

4. 产品现存问题
Apple Intelligence上线后遭遇实际功能未达宣传预期的质疑，特别是应用内交互和理解能力等核心功能尚未完善。

5. 市场乐观原因分析
消费者热情可能源于：对基础AI功能的满足感、对完整功能的预期，或普通用户对技术缺陷的认知不足。

AI2030

也许你也看到了AI的未来。

分类目录归档：大模型

OpenAI将调整GPT-4o人格化设定用户可自定义交互风格

Deep Research免费版上线及功能差异说明

LemonAI 推出实时音视频 AI 数字人模型 Slice Live

Google Gemini：你的AI挚友使用指南与隐私设置

AI图像生成器对比：Adobe Firefly与ChatGPT的创作风格分析

开源AI语音模型Dia突破情感表达界限，开启拟真情绪化语音新时代

Deep Research免费版上线及使用限制摘要

Perplexity语音助手挑战Siri：更智能的iOS AI助手来了

AI图像修复新趋势：老照片的数字化重生

苹果AI服务市场反响调查：批评与消费意愿并存