大模型发展面临哪些主要短板和挑战？

1个回答

Caroline022

2026-01-02 00:24

难以持续为大模型提供足够的创新养分。这一点在LMSYS大模型的竞技场上尤为明显——即使是那些热衷于体验AI技术的极客用户，也很难区分出真正具备更高智力水平的模型。结果是，那些更注重排版和表面表现的模型往往获得了更高的评分。回想两年前，我们还曾担忧ChatGPT等早期模型的低质量输出可能会污染整个语料库，从而影响高质量数据的获取。然而，世界并不仅仅由语料构成，人类无法仅依靠文档来复现复杂的大型项目，尤其是工业级别的庞大工程。当大模型的理性能力已经达到可以与研究生媲美的水平，并且通过链式思维（CoT）能够在数学竞赛中取得优异成绩时，其他方面的短板反而成为限制效率提升的关键因素。目前来看，存在以下几个亟待解决的问题：一、基于后训练而非提示词框架的智能代理当前的大模型大多依赖于提示词框架，而真正的智能代理需要能够脱离这种限制，在后训练阶段完成对复杂项目的模拟学习。这要求提供涵盖整个项目周期的语料示例，包括参与者的心理活动、可能出现的错误以及相应的修正操作。即使是小型项目，这样的语料也可能长达数百万个标记（token），完全由人工生成的成本极高。从经济性角度出发，强化学习可能是更可行的选择，但仍然需要一些初始示例作为启动条件。像某些具有超长推理能力的CoT模型，正是实现这一目标的基础工具。二、多模态端到端的具身智能现阶段，视频生成模型已经能够预测自身动作对场景视觉产生的变化。如果我们进一步要求这些模型生成第一人称视角（PoV）的视频内容，并且视频中包含手部操作细节，同时模型依然能准确预测接下来的动作，那么可以认为这类模型内部蕴含了实现端到端具身智能所需的信息。这一点证明了具身智能形式的通用人工智能（AGI）是可能实现的。值得注意的是，实际应用中的机器人并不需要生成完整的视频，它们只需生成动作序列即可。或许这意味着即使不依赖扩散模型（Diffusion Model），也可以达到良好的效果。无论如何，将视频生成模型中的编码器部分提取出来用于相关任务，应该会带来显著帮助。三、关于物理规律与世界模型的争议有些人认为，由于语言模型（LLM）、视频生成模型等未能掌握精确的物理规律，因此不能被视为真正的世界模型，也无法实现AGI。然而，我认为这种观点并不成立。事实上，视频生成模型确实无法完全掌握所有正确的物理规律，但这并不妨碍它实现AGI的目标。以一个具体例子来说：假设有一卷钢正在向一个人滚来，无论对于人类还是视频生成模型而言，都无法单纯依靠视觉和运动信息判断这卷钢是实心的（可能导致致命伤害），还是空心的（可以被轻松阻挡）。在这种情况下，总能找到理由批评视频生成模型缺乏对物理规律的理解，但同样的批评同样适用于人类。此外，研究表明，人在梦境中的物理规则和一致性通常比不上现代视频生成模型的表现。由此可见，是否掌握了绝对正确的物理规律并不是衡量智能水平的核心标准。相反，关键在于系统能否在有限的知识基础上做出合理决策并适应环境需求。

举报有用（0）分享收藏

大模型发展面临哪些主要短板和挑战？

1个回答

Caroline022

热门话题

相关问题