
AI
传统意义上,AGI通常被认为是AI系统可以自动化完成大多数具有经济价值的工作。不过,Chollet觉得这个定义不太精确,因为它把技能当作衡量智能的尺度,却忽略了智能的关键特性——广泛的学习与适应能力。技能本身会受到训练数据和先验知识的限制。因此,若一个AI系统拥有大量训练数据或者先验知识,它或许能展现出较高的技能水平,以往的AI便是如此,但这并不意味着这类模型具备真正的智能。智能的标志是能够高效地获取新技能,特别是从未接触过的任务。ARC - AGI设计的核心在于衡量AI在处理新任务时,怎样有效地获取并运用新技能,而非仅仅依赖已被给予的知识和数据。这种技能获取效率才是衡量智能的标准。ARC - AGI具体是如何做的?ARC - AGI涵盖训练与评估任务。每项任务都有输入输出示例,其输入和输出呈网格状,方格颜色有十种可选。网格的高或宽在1x1到30x30之间任意取值,这和我们面试或能力测试时做的那种依据图形找规律的题目很相似。很简单的,就像下面这种(大家可到官网做几道题试试)。
但是它同样有着极为复杂的一面。

面试
在ARC - AGI上,o3取得了87.5%的最高成绩,相比之下,GPT - 4o仅为5%,GPT - 3则为0%。
但这个结果意味着什么?这就代表AGI了吗?我认为这不好说,至少我保留看法,对o3的应用前景甚至有些悲观。首先,这个benchmark的测试结果能否代表AGI(即便它是这样设计的)就值得探讨。毕竟任何benchmark都有局限性,只是某方面能力的体现。其次,它只是理论测试,是纸面数据,在实际应用中的意义很难判定,数据指标虽高,但到底高到何种程度?包括ARC - AGI也在其博文中提到,o3在许多简单问题上仍会失败,所以也不会将o3看作是AGI了。而且,其推理成本昂贵得超乎想象。
高效模式下,每个任务要花20美元以及3300万tokens。在低效模式下(成绩为87.5%),计算量需达到高效模式的172倍,一个任务成本也快要达到数千美元了。
这表明,o3的能力或许是由不计成本的计算量换来的。然而,自o3(包括之前的o1)发布后,各个公司相继推出推理模型,像DeepSeek - R1、Gemini 2.0、Flash Thinking等。由此可见,大模型的发展路线已经出现转变。过去那种靠增加参数和预训练数据量来提升模型能力的方法已经碰到瓶颈,差不多走到尽头了。我之前就提过,多年之后再回首,人们肯定会感激23 - 24年大模型军备竞赛时,AI公司们不遗余力地训练基础大模型。如今这些训练好的模型,在未来很多年都会是AI系统所依赖的资本,开源模型更是如此,会十分珍贵(所以有需求的确实应该都下载备份),以后不会再有公司这样不计成本地投入了。O3更重要的影响是改变了大模型范式,接下来预计会有更多这类模型出现。但它是通往AGI的康庄大道,还是将大家引入完全不通的死胡同,这是另一个值得探讨的问题了。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号