ChatGPT model matchup – I pitted OpenAI’s o3, o4-mini, GPT-4o, and GPT-4.5 AI
models against each other and the results surprised me
by:
Eric Hal Schwartz
1. 测试背景
OpenAI近期发布了o3和o4-mini两款新AI模型,与测试中的GPT-4.5及默认的GPT-4o共同构成复杂产品线。测试者通过四项日常场景任务对比了它们的表现。
2. 模型特性
– o3:号称”天才中的天才”,擅长图像解析和逻辑推理
– o4-mini:经济版,响应更快但性能稍弱
– GPT-4.5:综合能力最强,兼具逻辑与共情
– GPT-4o:原生多模态模型,功能全面但缺乏新模型的某些特性
3. 测试结果
• 数独测试:所有模型均能正确解答,o3/o4-mini展示数学推导,GPT-4o/4.5采用对话式解释。面对错误题目时,GPT-4o异常生成全零答案表。
• 诗歌创作:要求按字母顺序写季节诗。o3唯一不押韵,GPT-4.5作品被评价”迷人”,其余模型产出适合贺卡的平淡作品。
• 食谱推荐:o3提供结构化菜谱表格,o4-mini方案简洁,GPT-4o意外简短,GPT-4.5则生成包含五道菜的完整菜单,其中芒果薄荷冰沙配方备受期待。
• 文化翻译:翻译英语谚语”raining cats and dogs”时,所有模型均指出日语需用”倾盆大雨”替代,GPT-4.5额外说明直译问题,GPT-4o则过度使用表情符号。
4. 总体评价
各模型在常规场景下表现均合格,但特色鲜明:
– o3最精准分析型
– o4-mini快速精简版
– GPT-4.5最拟人化
– GPT-4o偏爱表情符号
测试者特别推荐GPT-4.5的厨房应用潜力。