OpenAI 新品 o3 发布，被称为最强推理模型！

时间：2024-12-23 阅读：510

一年一度的圣诞节前夕，OpenAI 送给全世界一份「大礼」。就在今天，OpenAI 正式发布了其最新的 AI 模型 o3。有趣的是，本该叫 o2 的它，因为不想冒犯英国电信公司 O2，直接从 o1 跳到了 o3。名字虽然跳跃，但实力可一点都没有含糊。

让我们先看看这个被称为「最强推理模型」的 o3 到底有多强。

AI 界的「高考状元」

要说 o3 最让人震惊的，莫过于它在 ARC-AGI 测试中的表现。这个由 Keras 之父 François Chollet 开发的测试，被视为检验 AI 通用智能的「高考」。在这项测试中，o3 交出了一份漂亮的成绩单：在高算力模式下，正确率达到了惊人的 87.5%！

要知道，就在前不久，GPT-4 在这项测试中才刚刚突破 5%的及格线。短短几个月，成绩提升了 17 倍多，这种进步速度，简直让人目瞪口呆。

不仅如此，o3 在编程领域也展现出了超强实力。在全球知名的编程竞赛平台 Codeforces 上，o3 拿到了 2727 分的高分，这个成绩足以排到全球第 175 名。有意思的是，这个分数甚至超过了 OpenAI 现任首席科学家的历史最高分 2655 分。看来，徒弟已经青出于蓝了！

在数学领域，o3 的表现更是令人惊叹。在被称为「业界最难数学题集」的 Frontier Math 测试中，o3 解决了 25.2%的问题。这些问题之难，即便是顶尖的专业数学家，解决一道也需要好几天时间。而在此之前，其他 AI 模型的最好成绩还停留在 2%。

不过，好东西总是不便宜的。o3 的使用成本高得惊人：在高算力模式下，处理一个任务需要花费 3500 美金，相当于人民币 2 万多元。即便是最基础的低算力模式，每个任务也要花费 20 美金左右。这个价格，确实让人望而却步。

虽然 o3 展现出了前所未有的强大能力，但我们也要清醒地认识到它的局限性。正如 ARC-AGI 的创始人 Chollet 所说：「o3 在很多简单问题上表现得很差，这说明它与人类智能之间还存在根本性的差距。」

更重要的是，在即将发布的 ARC-AGI-2 测试中，o3 的得分预计会跌到不到 30%，而普通人类在没有任何训练的情况下就能达到 95%的正确率。这个差距，或许正说明了 AI 与真正的通用智能之间还有很长的路要走。

好在 OpenAI 已经宣布，将在明年 1 月底推出性能略低但更经济实惠的 o3-mini 版本。相信到那时，我们普通用户也能有机会体验这个「最强 AI」的魅力。

在结束之前，不得不说，看着 AI 一步步突破人类认知的边界，既让人感到兴奋，又隐隐有些担忧。但无论如何，技术的进步都是不可阻挡的。让我们拭目以待，看看这个叫做 o3 的「天才」，会给我们带来怎样的惊喜。

了解更多AI 资讯，可以加入我们的交流群一起沟通讨论~