OpenAI最强推理模型o3发布,AGI测试能力暴涨的影响领域

OpenAI

1个回答

写回答

15818170960

2025-11-25 22:45

+ 关注

AI
AI

而o系列模型则意味着推理投入的增加。o系列模型重点在编程、数学这两个场景发力,这最能展现模型推理能力的提升。o3和o3 - mini实际上分别意味着智能的提升与成本的降低,所以要分开看待它们的影响。我个人认为,o3对AI for science以及其他模型研究的影响颇为巨大,不过由于算力和成本的限制,也许在短期内难以普及;o3 - mini以五分之一的价格达成高于o1的性能,这会极大地推动AI编程应用的落地并提升效果。务实来说,我会更关注o3 - mini。其性能和成本(目测仅比GPT - 4o略高一点)更契合我的需求。o3的能力超出了我的需求,关键是它成本太高了,高得离谱。o3有点炫技的意思,它不管成本、不顾代价地成为一个标杆,好让大家知道什么才是顶尖水平。前几天Google发布了Gemini 2.0 Flash,这个消息短暂占据了几天头条,可是o3又一次大幅领先Gemini的成绩了。Gemini 2.0 Flash的SWE - bench编程分数为51.8,而o3达到了71.7。

不过,o3模型短时间内恐怕难以公开使用。在GPT - 4发布前,进行了8个月的安全测试。OpenAI在推出o3之前只会更为谨慎,毕竟能力越强的模型危险性越高。幸运的是,o3模型在推理能力增强的同时,对越狱指令的识别能力也提高了,以前用leetspeak替换字符这种越狱手段,已经无法欺骗o3模型了。OpenAI将这种安全命名为Deliberative alignment(深思熟虑的对齐),还宣称推理让语言模型更安全。事实上,按照OpenAI的测试结果来看,采用这种对齐方式后,o1模型抵御越狱的能力得到了提高,过度拒绝和拒绝不足的行为也得到了有效改善。

o3目前成本非常高,要有巨大的算力支撑才行。若AI infra能力无法进一步提升,短期内就难以大规模为用户提供服务。

Google
Google

可以简单类比一下,o3如同成本很高的博士水平员工,大多数日常生活和工作场景根本用不着这样的员工,其能力也难以施展。在市场调节下,o3的薪资会渐渐与它能解决的问题及带来的收益相匹配。说实话,这样的问题很少,愿意付出如此高成本的用户也不多。o3或许对AI for science大有裨益,能在前沿科研里提供更高效的研究能力。o3 - mini模型有所不同,o3 - mini(medium)能够以低于o1 - mini的成本,获取比o1模型更强的编程能力,这非常了不起。要知道,当前o1 - mini的价格是o1的五分之一,若o3 - mini能够得到推广使用,就相当于o1在降价的同时还实现了5%的性能提升。在这样的投资回报率(ROI)情况下,AI编程工具显然将迎来一次大爆发。接下来就看工程化能力了,像Copilot、Cursor、Windsurf这类应用要如何通过更好的产品化、智能化(Agent化)来发挥o3 - mini的能力。o3 - mini的成本和能力都摆在那,我觉得完全可以期待下明年是否会出现Killer App。对于具备一定编程基础的程序员而言,这说不定是个好机会。要是你想转行从事大模型开发,却缺乏相关基础知识的话,我建议去听听网络知学堂的「大模型全栈开发课程」。这课程由业内专家授课,会系统地讲解大模型应用开发的基础知识,带领大家迅速掌握大模型的技术架构以及业务落地场景。现在两天的直播课限时免费,点击下方卡片即可领取↓↓↓OpenAI今天展示了一个非常套娃的操作。

第二步,利用第一步达成的服务器功能,输入指令,让写一段eval代码,用于调用o3 - mini API来跑测试集分数。

嗯……怎么讲,有点绕且套娃,不过很有趣。我觉得o3 - mini和o1的智能程度差不多,于是我就自己试着复现这个过程,还让o1写了一段server代码。

除了调用API,保存与执行的代码大致如下:模型生成代码后,将其保存至本地,再调用Terminal执行。也可以达成在网页端输入提示(Prompt),调用API生成代码,将代码保存在桌面并且自动运行这种效果(我把编写后端API代码的模型换成DeepSeek后,效果也不错)。

后面的eval就没再继续测试了……ARC - AGI那组题目更倾向于凭直觉推理。有些对人而言很简单的题目,o3还是做不对,就像ARC - AGI公布的这道题:

这就是为何ARC prize的联合创始人Mike Knoop会这么说:总体而言,OpenAI此次虽仍推出期货,但o3 - mini依旧非常值得期待。和o3相比,mini模型的性价比更高,也更契合大多数普通程序员的日常需求。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号