大模型能力提升，如何直观认识o3能力？

1个回答

lxddd

2025-12-23 07:25

包括我在内的很多人，对其能力和表现都没了直观的认识。GPT - 3刚问世的时候，既能写诗、回答问题、创作文章，之后还能写代码、生成与理解图像、解数学题。这些都是人们日常能接触到的任务，大家比较熟悉，所以看结果就能很直观地知晓模型表现如何。不过，随着模型能力持续提高，它可完成更复杂的任务。至少在我看来，模型的能力（尤其是上限能力）已变成一个比较模糊的概念了。我知道它变强了，却不清楚强在哪里，又强了多少。尤其是后面以o1为代表的推理模型，这类模型旨在解决数理化、科学和代码等复杂问题。不过讲真，我觉得在日常使用中很少有人会碰到这类问题。而且就算遇到了，当用AI来解决时，你肯定得自己先具备解决该问题的能力才行，起码要有能力验证答案的准确性，不然怎么能相信AI给出的结果？就如o1刚推出时我所说，这种集中处理复杂问题的推理模型更像垂类模型，多数人都用不到。（当然，以这类模型为基础做二次开发的产品，如agent，不在此列。）同样，今天看到o3发布，我也有差不多的感觉。我大概只能通过benchmark纸面数据结果来体会o3的能力了，至于其在现实中的能力大小，已超出我所能判断的范围。最值得关注且最能体现o3能力的当属ARC - AGI benchmark。直观感受一下o3在ARC - AGI上有怎样的提升。

传统意义上，AGI通常被认为是AI系统可以自动化完成大多数具有经济价值的工作。不过，Chollet觉得这个定义不太精确，因为它把技能当作衡量智能的尺度，却忽略了智能的关键特性——广泛的学习与适应能力。技能本身会受到训练数据和先验知识的限制。因此，若一个AI系统拥有大量训练数据或者先验知识，它或许能展现出较高的技能水平，以往的AI便是如此，但这并不意味着这类模型具备真正的智能。智能的标志是能够高效地获取新技能，特别是从未接触过的任务。ARC - AGI设计的核心在于衡量AI在处理新任务时，怎样有效地获取并运用新技能，而非仅仅依赖已被给予的知识和数据。这种技能获取效率才是衡量智能的标准。ARC - AGI具体是如何做的？ARC - AGI涵盖训练与评估任务。每项任务都有输入输出示例，其输入和输出呈网格状，方格颜色有十种可选。网格的高或宽在1x1到30x30之间任意取值，这和我们面试或能力测试时做的那种依据图形找规律的题目很相似。很简单的，就像下面这种（大家可到官网做几道题试试）。

但是它同样有着极为复杂的一面。

面试

ARC - AGI的设计旨在比较人工智能和人类智能的能力。为此，它明确给出了一些基本示例（核心知识先验），这些知识是人类在幼年时就天然拥有的。这些先验知识对理解世界和解决问题极为关键，ARC - AGI的任务就是依据这些基本认知能力来评估AI系统的智能程度。通过限定依赖这些核心知识先验，ARC - AGI模拟人类对物体、目标、数字和空间关系的自然理解，且不依赖语言模式等其他外部知识。于是，它的任务更着重于AI是否具有基础的、通用的推理能力，而非仅基于特定语言模式或文化背景进行推理。

在ARC - AGI上，o3取得了87.5%的最高成绩，相比之下，GPT - 4o仅为5%，GPT - 3则为0%。

但这个结果意味着什么？这就代表AGI了吗？我认为这不好说，至少我保留看法，对o3的应用前景甚至有些悲观。首先，这个benchmark的测试结果能否代表AGI（即便它是这样设计的）就值得探讨。毕竟任何benchmark都有局限性，只是某方面能力的体现。其次，它只是理论测试，是纸面数据，在实际应用中的意义很难判定，数据指标虽高，但到底高到何种程度？包括ARC - AGI也在其博文中提到，o3在许多简单问题上仍会失败，所以也不会将o3看作是AGI了。而且，其推理成本昂贵得超乎想象。

高效模式下，每个任务要花20美元以及3300万tokens。在低效模式下（成绩为87.5%），计算量需达到高效模式的172倍，一个任务成本也快要达到数千美元了。

这表明，o3的能力或许是由不计成本的计算量换来的。然而，自o3（包括之前的o1）发布后，各个公司相继推出推理模型，像DeepSeek - R1、Gemini 2.0、Flash Thinking等。由此可见，大模型的发展路线已经出现转变。过去那种靠增加参数和预训练数据量来提升模型能力的方法已经碰到瓶颈，差不多走到尽头了。我之前就提过，多年之后再回首，人们肯定会感激23 - 24年大模型军备竞赛时，AI 公司们不遗余力地训练基础大模型。如今这些训练好的模型，在未来很多年都会是AI系统所依赖的资本，开源模型更是如此，会十分珍贵（所以有需求的确实应该都下载备份），以后不会再有公司这样不计成本地投入了。O3更重要的影响是改变了大模型范式，接下来预计会有更多这类模型出现。但它是通往AGI的康庄大道，还是将大家引入完全不通的死胡同，这是另一个值得探讨的问题了。

举报有用（0）分享收藏

大模型能力提升，如何直观认识o3能力？

1个回答

lxddd

热门话题

相关问题