OpenAI 新品 o3 发布,被称为最强推理模型!
一年一度的圣诞节前夕,OpenAI 送给全世界一份「大礼」。就在今天,OpenAI 正式发布了其最新的 AI 模型 o3。有趣的是,本该叫 o2 的它,因为不想冒犯英国电信公司 O2,直接从 o1 跳到了 o3。名字虽然跳跃,但实力可一点都没有含糊。
让我们先看看这个被称为「最强推理模型」的 o3 到底有多强。
AI 界的「高考状元」
要说 o3 最让人震惊的,莫过于它在 ARC-AGI 测试中的表现。这个由 Keras 之父 François Chollet 开发的测试,被视为检验 AI 通用智能的「高考」。在这项测试中,o3 交出了一份漂亮的成绩单:在高算力模式下,正确率达到了惊人的 87.5%!
要知道,就在前不久,GPT-4 在这项测试中才刚刚突破 5%的及格线。短短几个月,成绩提升了 17 倍多,这种进步速度,简直让人目瞪口呆。
不仅如此,o3 在编程领域也展现出了超强实力。在全球知名的编程竞赛平台 Codeforces 上,o3 拿到了 2727 分的高分,这个成绩足以排到全球第 175 名。有意思的是,这个分数甚至超过了 OpenAI 现任首席科学家的历史最高分 2655 分。看来,徒弟已经青出于蓝了!
解决最难的数学题
在数学领域,o3 的表现更是令人惊叹。在被称为「业界最难数学题集」的 Frontier Math 测试中,o3 解决了 25.2%的问题。这些问题之难,即便是顶尖的专业数学家,解决一道也需要好几天时间。而在此之前,其他 AI 模型的最好成绩还停留在 2%。
不过,好东西总是不便宜的。o3 的使用成本高得惊人:在高算力模式下,处理一个任务需要花费 3500 美金,相当于人民币 2 万多元。即便是最基础的低算力模式,每个任务也要花费 20 美金左右。这个价格,确实让人望而却步。
写在最后
虽然 o3 展现出了前所未有的强大能力,但我们也要清醒地认识到它的局限性。正如 ARC-AGI 的创始人 Chollet 所说:「o3 在很多简单问题上表现得很差,这说明它与人类智能之间还存在根本性的差距。」
更重要的是,在即将发布的 ARC-AGI-2 测试中,o3 的得分预计会跌到不到 30%,而普通人类在没有任何训练的情况下就能达到 95%的正确率。这个差距,或许正说明了 AI 与真正的通用智能之间还有很长的路要走。
好在 OpenAI 已经宣布,将在明年 1 月底推出性能略低但更经济实惠的 o3-mini 版本。相信到那时,我们普通用户也能有机会体验这个「最强 AI」的魅力。
在结束之前,不得不说,看着 AI 一步步突破人类认知的边界,既让人感到兴奋,又隐隐有些担忧。但无论如何,技术的进步都是不可阻挡的。让我们拭目以待,看看这个叫做 o3 的「天才」,会给我们带来怎样的惊喜。