OpenAI最强推理模型o3发布，AGI测试能力暴涨的影响领域

1个回答

15818170960

2025-11-25 22:45

而o系列模型则意味着推理投入的增加。o系列模型重点在编程、数学这两个场景发力，这最能展现模型推理能力的提升。o3和o3 - mini实际上分别意味着智能的提升与成本的降低，所以要分开看待它们的影响。我个人认为，o3对AI for science以及其他模型研究的影响颇为巨大，不过由于算力和成本的限制，也许在短期内难以普及；o3 - mini以五分之一的价格达成高于o1的性能，这会极大地推动AI编程应用的落地并提升效果。务实来说，我会更关注o3 - mini。其性能和成本（目测仅比GPT - 4o略高一点）更契合我的需求。o3的能力超出了我的需求，关键是它成本太高了，高得离谱。o3有点炫技的意思，它不管成本、不顾代价地成为一个标杆，好让大家知道什么才是顶尖水平。前几天Google发布了Gemini 2.0 Flash，这个消息短暂占据了几天头条，可是o3又一次大幅领先Gemini的成绩了。Gemini 2.0 Flash的SWE - bench编程分数为51.8，而o3达到了71.7。

不过，o3模型短时间内恐怕难以公开使用。在GPT - 4发布前，进行了8个月的安全测试。OpenAI在推出o3之前只会更为谨慎，毕竟能力越强的模型危险性越高。幸运的是，o3模型在推理能力增强的同时，对越狱指令的识别能力也提高了，以前用leetspeak替换字符这种越狱手段，已经无法欺骗o3模型了。OpenAI将这种安全命名为Deliberative alignment（深思熟虑的对齐），还宣称推理让语言模型更安全。事实上，按照OpenAI的测试结果来看，采用这种对齐方式后，o1模型抵御越狱的能力得到了提高，过度拒绝和拒绝不足的行为也得到了有效改善。

o3目前成本非常高，要有巨大的算力支撑才行。若AI infra能力无法进一步提升，短期内就难以大规模为用户提供服务。

Google
Google

可以简单类比一下，o3如同成本很高的博士水平员工，大多数日常生活和工作场景根本用不着这样的员工，其能力也难以施展。在市场调节下，o3的薪资会渐渐与它能解决的问题及带来的收益相匹配。说实话，这样的问题很少，愿意付出如此高成本的用户也不多。o3或许对AI for science大有裨益，能在前沿科研里提供更高效的研究能力。o3 - mini模型有所不同，o3 - mini（medium）能够以低于o1 - mini的成本，获取比o1模型更强的编程能力，这非常了不起。要知道，当前o1 - mini的价格是o1的五分之一，若o3 - mini能够得到推广使用，就相当于o1在降价的同时还实现了5%的性能提升。在这样的投资回报率（ROI）情况下，AI编程工具显然将迎来一次大爆发。接下来就看工程化能力了，像Copilot、Cursor、Windsurf这类应用要如何通过更好的产品化、智能化（Agent化）来发挥o3 - mini的能力。o3 - mini的成本和能力都摆在那，我觉得完全可以期待下明年是否会出现Killer App。对于具备一定编程基础的程序员而言，这说不定是个好机会。要是你想转行从事大模型开发，却缺乏相关基础知识的话，我建议去听听网络知学堂的「大模型全栈开发课程」。这课程由业内专家授课，会系统地讲解大模型应用开发的基础知识，带领大家迅速掌握大模型的技术架构以及业务落地场景。现在两天的直播课限时免费，点击下方卡片即可领取↓↓↓OpenAI今天展示了一个非常套娃的操作。

第二步，利用第一步达成的服务器功能，输入指令，让写一段eval代码，用于调用o3 - mini API来跑测试集分数。

嗯……怎么讲，有点绕且套娃，不过很有趣。我觉得o3 - mini和o1的智能程度差不多，于是我就自己试着复现这个过程，还让o1写了一段server代码。

除了调用API，保存与执行的代码大致如下：模型生成代码后，将其保存至本地，再调用Terminal执行。也可以达成在网页端输入提示（Prompt），调用API生成代码，将代码保存在桌面并且自动运行这种效果（我把编写后端API代码的模型换成DeepSeek后，效果也不错）。

后面的eval就没再继续测试了……ARC - AGI那组题目更倾向于凭直觉推理。有些对人而言很简单的题目，o3还是做不对，就像ARC - AGI公布的这道题：

这就是为何ARC prize的联合创始人Mike Knoop会这么说：总体而言，OpenAI此次虽仍推出期货，但o3 - mini依旧非常值得期待。和o3相比，mini模型的性价比更高，也更契合大多数普通程序员的日常需求。

举报有用（0）分享收藏

OpenAI最强推理模型o3发布，AGI测试能力暴涨的影响领域

1个回答

15818170960

热门话题

相关问题