原文链接:
ChatGPT model matchup – I pitted OpenAI’s o3, o4-mini, GPT-4o, and GPT-4.5 AI
models against each other and the results surprised me
by:
Eric Hal Schwartz
OpenAI多款AI模型性能对比测试摘要
ChatGPT model matchup – I pitted OpenAI’s o3, o4-mini, GPT-4o, and GPT-4.5 AI
models against each other and the results surprised me
by:
Eric Hal Schwartz
1. 模型阵容
OpenAI近期发布了两款新模型o3和o4-mini,与测试中的GPT-4.5及默认模型GPT-4o共同构成产品线。其中o3以卓越推理和图像解析能力著称,o4-mini则是经济高效的轻量版本。
2. 测试设计
通过视觉逻辑(数独)、视觉创意(诗歌)、语言学(翻译)和烹饪建议四类任务对比测试。特别关注日常场景下的表现,而非极限压力测试。
3. 数独测试
所有模型均能正确解题,但风格迥异:o3/o4-mini展示数学推导过程,GPT-4o/4.5采用对话式解释。面对错误题目时,GPT-4o异常生成全零答案表。
4. 诗歌创作
要求按字母顺序创作季节诗,o3是唯一不押韵的模型。GPT-4.5作品因富有魅力被特别展示,其他模型输出类似贺卡水平的常规诗句。
5. 烹饪建议
o3提供结构化菜谱表格,o4-mini给出简洁指南,GPT-4o方案意外简短。GPT-4.5表现突出,生成包含5道菜的完整菜单,其中芒果薄荷冰沙配方备受期待。
6. 文化翻译
在翻译”倾盆大雨”时,所有模型均识别到需文化适配,推荐”桶翻式大雨”的日文俗语。GPT-4o额外添加表情符号,GPT-4.5则详细解释直译的不可行性。
7. 总体评价
o3最精准分析型,o4-mini响应更快,GPT-4.5最拟人化,GPT-4o偏爱表情符号。日常使用中差异不大,但GPT-4.5在创意任务(如烹饪)表现尤为出色。