OpenAI多款AI模型性能对比测试摘要

原文链接：

ChatGPT model matchup – I pitted OpenAI’s o3, o4-mini, GPT-4o, and GPT-4.5 AI
models against each other and the results surprised me

by:
Eric Hal Schwartz

1. 模型阵容
OpenAI近期发布了两款新模型o3和o4-mini，与测试中的GPT-4.5及默认模型GPT-4o共同构成产品线。其中o3以卓越推理和图像解析能力著称，o4-mini则是经济高效的轻量版本。

2. 测试设计
通过视觉逻辑（数独）、视觉创意（诗歌）、语言学（翻译）和烹饪建议四类任务对比测试。特别关注日常场景下的表现，而非极限压力测试。

3. 数独测试
所有模型均能正确解题，但风格迥异：o3/o4-mini展示数学推导过程，GPT-4o/4.5采用对话式解释。面对错误题目时，GPT-4o异常生成全零答案表。

4. 诗歌创作
要求按字母顺序创作季节诗，o3是唯一不押韵的模型。GPT-4.5作品因富有魅力被特别展示，其他模型输出类似贺卡水平的常规诗句。

5. 烹饪建议
o3提供结构化菜谱表格，o4-mini给出简洁指南，GPT-4o方案意外简短。GPT-4.5表现突出，生成包含5道菜的完整菜单，其中芒果薄荷冰沙配方备受期待。

6. 文化翻译
在翻译”倾盆大雨”时，所有模型均识别到需文化适配，推荐”桶翻式大雨”的日文俗语。GPT-4o额外添加表情符号，GPT-4.5则详细解释直译的不可行性。

7. 总体评价
o3最精准分析型，o4-mini响应更快，GPT-4.5最拟人化，GPT-4o偏爱表情符号。日常使用中差异不大，但GPT-4.5在创意任务（如烹饪）表现尤为出色。

AI2030