大模型能力放缓，OpenAI有何应对策略？

1个回答

qixuao

2025-12-22 17:05

OpenAI
OpenAI

再补充些信源和内容。11月10日，The Information发表了一篇名为由于GPT性能提升放缓，OpenAI转变策略的文章，由此引发了这一波有关大模型能力放缓的讨论。

有OpenAI员工对Orion进行测试后表示，该模型仅完成20%的训练就达到了GPT - 4的水平。不过其质量提升幅度比从GPT - 3到GPT - 4的提升小，这意味着由于高质量数据的缺乏，传统的扩展改进方式可能会放慢速度。Sam Altman近期有两次发言，一回是在Reddit上答复用户提问，其中有一条是。Sam Altman表示，他们正在优先推出o1及其后续版本。这些模型都极为复杂，无法同时发布太多内容。（他们也受到诸多限制，必须在计算资源分配方面艰难抉择，以支持众多优秀的构想。）至于AVM（高级语音模式，简称AVM）视觉，目前还没有确定发布日期。

同时明确表示，今年还会有一次发布，但不会将其命名为GPT - 5。

还有一次是接受a16z的Gary Tan的播客访谈，在访谈里也谈到了Scaling，大家可以自己去观看。或许是上一篇文章引发了较多讨论，于是The Information又发布了一篇新文章来补充说明，文章名为Goodbye, GPT. Hello, Reasoning ‘O’（再见，GPT。你好，推理O）。

文中提到，研究人员发现可通过推理阶段的测试时计算改进大语言模型，这是新方法而非传统扩展，但他们强调并非在说AI的世界末日即将来临。今天，路透社又出了一篇新文章，这篇文章采访了伊利亚·苏茨克弗（Ilya Sutskever），相比之前更加直白。文章标题是因当前方法受限，OpenAI和其他人工智能公司探索更智能的AI路径。文中指出，像OpenAI这类的AI企业宣称，靠增添更多数据与计算能力来扩展现有模型，会不断催生更出色的AI模型，还会极大推动其估值增长。但近期Ilya Sutskever称，在预训练阶段（即AI模型借助大量无标签数据来理解语言模式与结构的训练阶段），扩展的成果已趋于平缓。伊利亚（Ilya）表示：Ilya未透露其团队解决该问题的更多细节，仅称SSI正在探索一种预训练扩展的替代方法。还有一个问题，大型语言模型对数据的需求量极大，全球容易获取的数据资源几乎已被AI模型耗尽。并且其训练运行受电力短缺的制约，因为这一过程能耗巨大。研究人员为应对这些挑战，正在探索测试时计算技术，从而在模型使用的推理阶段对现有AI模型进行强化。比如，模型不再马上选定单一答案，而是能够实时生成并评估多种可能性，最终选出最优方案。该方法可使模型在处理数学、编程等复杂问题时投入更多运算能力，或者在涉及类似人类推理与决策的复杂操作中投入更多资源。OpenAI研究员Noam Brown参与了o1模型研发，他上个月在旧金山TED AI大会上讲道：事实表明，让机器人在扑克游戏里思考20秒，这能带来等同于将模型规模扩大10万倍且训练时长也扩大10万倍的性能提升。OpenAI首席产品官Kevin Weil于10月的一个科技会议称：我们发现很多能迅速提高这些模型性能的简单机会。他还表示：等他人追上来时，我们会力求再领先三步。目前市场主要被英伟达 AI芯片的强劲需求主导，而这一转变或许会改变AI硬件的竞争格局。红杉资本合伙人Sonya Huang对路透社表示：这一转变会让我们从庞大的预训练集群环境，迈向基于云端、分布式的推理云服务器环境。当被问到这种转变对其产品需求有何影响时，英伟达提及了公司近期有关o1模型技术重要性的演讲。黄仁勋上月在印度会议上称，用其芯片做推理的需求正在增长。黄仁勋表示：我们如今发现了第二条扩展法则，也就是推理阶段的扩展法则……所有这些因素致使对Blackwell的需求极为强烈。

举报有用（0）分享收藏

大模型能力放缓，OpenAI有何应对策略？

1个回答

qixuao

热门话题

相关问题