当你给 o3-mini 相同的提示时,它会成

Collaborate on cutting-edge hong kong data technologies and solutions.
Post Reply
rifat28dddd
Posts: 669
Joined: Fri Dec 27, 2024 12:23 pm

当你给 o3-mini 相同的提示时,它会成

Post by rifat28dddd »

更有趣的是,在需要高度逻辑推理的任务上,GPT-4o 的表现往往相当糟糕。OpenAI 使用的一个例子是 2024 年美国数学奥林匹克 (AIME) 试卷。在 15 道难题中,GPT-4o 只能正确回答两道。然而,o1 却答对了 13 道,这将使其跻身美国参加试卷的前 500 名学生之列。竞争性编码平台Codeforces上的情况也类似。GPT-4o 的得分仅在第 11 个百分位,而完整的 o1 模型的得分在第 89 个百分位。

OpenAI o1 与 GPT-4o 在各种基准测试中的对比
o3-mini 的情况大致相同。在各种基准测试中,推理工作量较低的 o3-mini 可匹敌或超过 o1-mini,推理工作量较高的 o3-mini 可匹敌 o1。

o3-mini 的基准测试图表
不过,最让我吃惊的是 OpenAI o1 的不足之处。在人工评估中,o1-preview 模型在个人写作方面的表现略差,在编辑文本方面的表现与 GPT-4o 相当。虽然这本身并不是什么大问题,但当你比较不同模型的成本时,就会发现问题了(我们稍后会讨论)。

展示人类对 o1-preview 和 GPT-4o 领域偏好的条形图(它在 STEM 任务上胜出,但在个人写作上败下阵来)
OpenAI o3-mini 稍微专业一些,擅长解决需要逻辑推理和生成代码的 STEM 问题,但不需要广泛的常识。对于其小众任务,它快速而有效,但对于一般任务,它比 GPT-4o 差。

为了看到这一切的实际效果,这里是 GPT-4o mini,它回答了关于在不同选择下如何到达西班牙的问题。

GPT-4o mini 说前往西班牙的最佳方式是乘飞机,但只是因为它认为 6 小时比 4 小时短
虽然它明白游泳很有挑战性,但它似乎也认为四个小时比六个小时要长。



OpenAI o1-mini 知道没有人应该游泳去西班牙而 卡塔尔电报数据库 不是乘飞机,因为乘飞机距离更短,而且“不切实际或不安全”。
它会一步步地完成其思路链,然后才产生输出:这就是为什么 o1 知道六大于四。

OpenAI o1 和 o3-mini 定价
通过 OpenAI 的 API,GPT-4o 每百万输入代币的成本为 2.50 美元,每百万输出代币的成本为 10 美元。GPT-4o mini 每百万输入代币的成本仅为 0.15 美元,每百万输出代币的成本为 0.60 美元。另一方面,o1 每百万输入代币的成本为 15 美元,每百万输出代币的成本为 60 美元。即使是 o3-mini,每百万输入代币的成本也是 1.10 美元,每百万输出代币的成本为 4.40 美元。

模型

每百万输入代币的价格
Post Reply