OpenAI新推o3模型，AI未来如何改变各行业？

1个回答

程亦荇

2025-12-23 07:42

OpenAI
OpenAI

连续12天的直播，最后一天果然放出重磅内容，许多人猜测是GPT5，毕竟压轴的通常是重量级的大模型。尤其是像OpenAI这样的领军企业，其每次模型更新，几乎都预示着人工智能大模型领域的发展趋势。果然，这次的重头戏是o3模型，包括我在内，许多人都感到困惑，为什么在o1之后跳过了o2，直接上了o3。OpenAI的CEO山姆奥特曼特别说明，公司不擅长取名，因此在o1之后直接跳到了o3。这种随意的命名方式或许正是他们的独特风格。

实际上，OpenAI的o系列模型最显著的特点是擅长推理。无论是编程中的逻辑推演，还是数学、物理、化学等理科领域的复杂分析，这类任务都需要强大的推理能力，而o系列模型在这些方面表现尤为出色。新的o3模型在推理能力上有了显著提升，在Software Engineering和Codeforces两项测试中的得分，相较于前一代的o1模型，有了大幅度的提高。

第一个测试集的分数由48.9提高到71.7，第二个从1891增至2727，提升幅度显著。未来程序员的工作模式必将演变为人类与AI协作。从测试结果看，顶尖程序员的成绩对o3模型而言轻而易举，且随着o3模型的算力优化，人类几乎难以超越。这种趋势表明，AI将在编程领域占据主导地位，人类需借助AI才能保持竞争力。其他行业也是如此，此次o3的发布向全球展示了大模型仍有巨大潜力，AI依旧是未来发展的关键方向。这表明，要在未来占据一席之地，与AI结合是必然趋势。而这种结合的前提是对AI有足够的了解。感兴趣的朋友可以通过以下链接参加知学堂开设的免费AI大模型讲座，深入了解这一前沿领域。明白原理和应用，才能知道如何将自身行业与AI高效结合。在数学方面也取得了进步，在AIME测试中，o1的准确率达到了83.3%，而o3更是提升到了96.7%，相当于做一套数学卷子只错一个题的水平。

山姆

接下来的测试集名为GPQA，是针对博士生的问题集。若让某一学科的博士回答，通常能得约70分。这个测试集难度较高。o1模型得分约78分，o3模型则提升至87.7分，显著超越人类选手的表现。

除了这些常见的测试集外，还引入了一个不太常见的测试集——ARC AGI。其全名是抽象与推理语料库，专为通用人工智能设计。这个测试集旨在评估AI在抽象思维和推理能力方面的表现，通过一系列复杂任务来检验其智能水平，从而推动人工智能技术的发展与应用。

这个数据集比大多数测试用的都难，题目多为推理问题。以下是个简单例子，凭直觉就能回答。

有些题目非常难，像下面这题就是。

我看了几分钟才发现，黄色块中的其他色块数量决定了新图像外相同色块的层数。GPT4o得分仅为9%，而o1得分超过两倍，达到21%。o3表现更为突出，超出第二名60%的分数，以82.8%高居榜首。

你可以查看ARC AGI主席公布的数据，o系列模型的性能提升非常线性，甚至显得有些过于规律。

O3模型有多个形态，包括O3和O3 mini。O3 mini是通过蒸馏得到的小型模型，进一步分为三种类型，分类依据是推理过程中消耗的计算资源。分为低、中、高三档，计算资源越多，性能越优，符合资源与性能正相关的原理。

在直播中测试了o3 mini的低功耗模式，完成198道题仅用45秒，准确率为61.62%。速度非常快，若使用高功耗模式或满血版o3，成绩可能会大幅提升。

OpenAI介绍了安全性升级，使模型在这两个关键维度上达到优化平衡。这两个维度分别是：一是系统的稳定性和可靠性，二是对潜在风险的识别和防范能力。拒绝恶意指令：检验模型能否抵制不良请求，例如规避规定或生成有害信息，确保其行为符合规范。避免过度拒绝：确保模型在面对无害请求时，不会因过于谨慎而拒绝提供回应。需对此进行检查和优化。

深绿色星形的o1模型在抵御恶意提示上表现出色，同时对无害提示更加宽容，实现了安全性和灵活性的良好平衡。GPT-4o虽然表现不错，但在灵活性和安全性之间有所妥协。Claude 3.5和Gemini 1.5模型在某些特定方面各有优势，但未能同时优化这两方面。整体来看，o1模型在这方面的综合表现更为突出。这一切皆因安全考量而起：现有方法存在不足之处：新方法——深思熟虑的对齐：通过精心设计的策略，确保各要素精准匹配，提升整体协同效果。下图详细展示了多个模型的训练和推理逻辑，其中o3方法更多地运用了COT，并包含了大量推理过程。

举报有用（0）分享收藏

OpenAI新推o3模型，AI未来如何改变各行业？

1个回答

程亦荇

热门话题

相关问题