当你给 o3-mini 相同的提示时，它会成

rifat28dddd · Post by **rifat28dddd** » Thu Mar 20, 2025 9:57 am

更有趣的是，在需要高度逻辑推理的任务上，GPT-4o 的表现往往相当糟糕。OpenAI 使用的一个例子是 2024 年美国数学奥林匹克 (AIME) 试卷。在 15 道难题中，GPT-4o 只能正确回答两道。然而，o1 却答对了 13 道，这将使其跻身美国参加试卷的前 500 名学生之列。竞争性编码平台Codeforces上的情况也类似。GPT-4o 的得分仅在第 11 个百分位，而完整的 o1 模型的得分在第 89 个百分位。

OpenAI o1 与 GPT-4o 在各种基准测试中的对比
o3-mini 的情况大致相同。在各种基准测试中，推理工作量较低的 o3-mini 可匹敌或超过 o1-mini，推理工作量较高的 o3-mini 可匹敌 o1。

o3-mini 的基准测试图表
不过，最让我吃惊的是 OpenAI o1 的不足之处。在人工评估中，o1-preview 模型在个人写作方面的表现略差，在编辑文本方面的表现与 GPT-4o 相当。虽然这本身并不是什么大问题，但当你比较不同模型的成本时，就会发现问题了（我们稍后会讨论）。

展示人类对 o1-preview 和 GPT-4o 领域偏好的条形图（它在 STEM 任务上胜出，但在个人写作上败下阵来）
OpenAI o3-mini 稍微专业一些，擅长解决需要逻辑推理和生成代码的 STEM 问题，但不需要广泛的常识。对于其小众任务，它快速而有效，但对于一般任务，它比 GPT-4o 差。

为了看到这一切的实际效果，这里是 GPT-4o mini，它回答了关于在不同选择下如何到达西班牙的问题。

GPT-4o mini 说前往西班牙的最佳方式是乘飞机，但只是因为它认为 6 小时比 4 小时短
虽然它明白游泳很有挑战性，但它似乎也认为四个小时比六个小时要长。

OpenAI o1-mini 知道没有人应该游泳去西班牙而卡塔尔电报数据库不是乘飞机，因为乘飞机距离更短，而且“不切实际或不安全”。
它会一步步地完成其思路链，然后才产生输出：这就是为什么 o1 知道六大于四。

OpenAI o1 和 o3-mini 定价
通过 OpenAI 的 API，GPT-4o 每百万输入代币的成本为 2.50 美元，每百万输出代币的成本为 10 美元。GPT-4o mini 每百万输入代币的成本仅为 0.15 美元，每百万输出代币的成本为 0.60 美元。另一方面，o1 每百万输入代币的成本为 15 美元，每百万输出代币的成本为 60 美元。即使是 o3-mini，每百万输入代币的成本也是 1.10 美元，每百万输出代币的成本为 4.40 美元。

模型

每百万输入代币的价格