OpenAI新推o3模型,AI未来如何改变各行业?

OpenAI

1个回答

写回答

程亦荇

2025-12-23 07:42

+ 关注

OpenAI
OpenAI

连续12天的直播,最后一天果然放出重磅内容,许多人猜测是GPT5,毕竟压轴的通常是重量级的大模型。尤其是像OpenAI这样的领军企业,其每次模型更新,几乎都预示着人工智能大模型领域的发展趋势。果然,这次的重头戏是o3模型,包括我在内,许多人都感到困惑,为什么在o1之后跳过了o2,直接上了o3。OpenAI的CEO山姆奥特曼特别说明,公司不擅长取名,因此在o1之后直接跳到了o3。这种随意的命名方式或许正是他们的独特风格。

实际上,OpenAI的o系列模型最显著的特点是擅长推理。无论是编程中的逻辑推演,还是数学、物理、化学等理科领域的复杂分析,这类任务都需要强大的推理能力,而o系列模型在这些方面表现尤为出色。新的o3模型在推理能力上有了显著提升,在Software Engineering和Codeforces两项测试中的得分,相较于前一代的o1模型,有了大幅度的提高。

第一个测试集的分数由48.9提高到71.7,第二个从1891增至2727,提升幅度显著。未来程序员的工作模式必将演变为人类AI协作。从测试结果看,顶尖程序员的成绩对o3模型而言轻而易举,且随着o3模型的算力优化,人类几乎难以超越。这种趋势表明,AI将在编程领域占据主导地位,人类需借助AI才能保持竞争力。其他行业也是如此,此次o3的发布向全球展示了大模型仍有巨大潜力,AI依旧是未来发展的关键方向。这表明,要在未来占据一席之地,与AI结合是必然趋势。而这种结合的前提是对AI有足够的了解。感兴趣的朋友可以通过以下链接参加知学堂开设的免费AI大模型讲座,深入了解这一前沿领域。明白原理和应用,才能知道如何将自身行业与AI高效结合。在数学方面也取得了进步,在AIME测试中,o1的准确率达到了83.3%,而o3更是提升到了96.7%,相当于做一套数学卷子只错一个题的水平。

山姆
山姆

接下来的测试集名为GPQA,是针对博士生的问题集。若让某一学科的博士回答,通常能得约70分。这个测试集难度较高。o1模型得分约78分,o3模型则提升至87.7分,显著超越人类选手的表现。

除了这些常见的测试集外,还引入了一个不太常见的测试集——ARC AGI。其全名是抽象与推理语料库,专为通用人工智能设计。这个测试集旨在评估AI在抽象思维和推理能力方面的表现,通过一系列复杂任务来检验其智能水平,从而推动人工智能技术的发展与应用。

这个数据集比大多数测试用的都难,题目多为推理问题。以下是个简单例子,凭直觉就能回答。

有些题目非常难,像下面这题就是。

我看了几分钟才发现,黄色块中的其他色块数量决定了新图像外相同色块的层数。GPT4o得分仅为9%,而o1得分超过两倍,达到21%。o3表现更为突出,超出第二名60%的分数,以82.8%高居榜首。

你可以查看ARC AGI主席公布的数据,o系列模型的性能提升非常线性,甚至显得有些过于规律。

O3模型有多个形态,包括O3和O3 mini。O3 mini是通过蒸馏得到的小型模型,进一步分为三种类型,分类依据是推理过程中消耗的计算资源。分为低、中、高三档,计算资源越多,性能越优,符合资源与性能正相关的原理。

在直播中测试了o3 mini的低功耗模式,完成198道题仅用45秒,准确率为61.62%。速度非常快,若使用高功耗模式或满血版o3,成绩可能会大幅提升。

OpenAI介绍了安全性升级,使模型在这两个关键维度上达到优化平衡。这两个维度分别是:一是系统的稳定性和可靠性,二是对潜在风险的识别和防范能力。拒绝恶意指令:检验模型能否抵制不良请求,例如规避规定或生成有害信息,确保其行为符合规范。避免过度拒绝:确保模型在面对无害请求时,不会因过于谨慎而拒绝提供回应。需对此进行检查和优化。

深绿色星形的o1模型在抵御恶意提示上表现出色,同时对无害提示更加宽容,实现了安全性和灵活性的良好平衡。GPT-4o虽然表现不错,但在灵活性和安全性之间有所妥协。Claude 3.5和Gemini 1.5模型在某些特定方面各有优势,但未能同时优化这两方面。整体来看,o1模型在这方面的综合表现更为突出。这一切皆因安全考量而起:现有方法存在不足之处:新方法——深思熟虑的对齐:通过精心设计的策略,确保各要素精准匹配,提升整体协同效果。下图详细展示了多个模型的训练和推理逻辑,其中o3方法更多地运用了COT,并包含了大量推理过程。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号