AI如何突破数据瓶颈？三种思路探索通用智能

1个回答

yaya_shen

2025-12-23 23:55

公司

大家有没有注意到，Ilya其实藏了一个大招没有说出来。当前各大模型公司纷纷碰到了一个共同的瓶颈：数据集不够用了。GPT-4几乎已经将整个互联网的精华语料一网打尽，现在连地主都没有余粮了，这导致了一些新模型表现不佳。那么面对这种情况，我们该怎么办？其实解决办法并不复杂。既然虚拟世界中的语料库已经枯竭，那我们就转向现实世界去获取更多的数据。通过给AI装上多模态系统，使其具备视觉、听觉和触觉等感知能力，从而能够接收来自物理世界的信息源。人类正是通过这种方式来学习和理解世界的。然而，这里有一个问题：AI需要大规模清洗和标注的数据，而现实世界的数据却是杂乱无章的，无法直接使用。那么为什么人类不需要对数据进行标注就能学习？这是因为人类的大脑模型远比现有大模型先进得多，它可以自动辨别（丘脑）、清洗（枕叶）、标注与合成（前额叶）外来信息，并且具有强大的神经可塑性，保证数据能够及时更新。那么如何让大模型学习到大脑模型的能力？目前有三种思路。第一种思路认为，人类的大脑在出生时就已经预装了一个世界模型，天生具备所谓的直觉生物学，可以读懂物理世界。这是数亿年进化的结果。因此，有人提出应该为大模型也安装这样一个世界模型，使AI像人类一样，仅用少量数据就能进行学习。这种思路类似于早期的符号主义，先教会大模型一套知识体系，然后再进行具体的学习。这是杨立昆提出的世界模型思路。第二种思路则认为，人类的大脑是在处理物理世界的三维信息中成长起来的，自然能理解物理世界，而AI却没有这种能力。现有的语料库是一种高度抽象的信息压缩形式，在压缩过程中丢失了大量原始信息，这就导致AI无法真正理解文字背后的含义。就像一个小孩只学过苹果这个词，却不能真正理解什么是苹果一样。因此，有人提出要教会大模型三维空间的理解能力，让它在三维环境中成长，从而真正理解事物的本质。这是李飞飞提出的空间模型思路。第三种思路更加深远，认为即使大模型具备了类似大脑的能力，仍然无法像大脑那样学习。因为人类是经过自然选择进化而来的，那些犯错的大脑早已被自然淘汰，只有适应环境的才会留存下来。换句话说，自然选择本身就是一种天然的反馈机制，它能够不断纠正大脑的错误，促使大脑不断进化。因此，有人认为必须赋予大模型一种反馈机制，使其能够自我评估、改进输出，最终形成自我学习的能力。这就是Ilya提出的超级对齐思路。以上三种不同的思路代表了不同专家对于智能的理解和探索方向。目前很难说哪条道路会通向真正的通用人工智能（AGI），只能一步一步地摸索前进。当然，这些专家们的思考要比我描述的深刻得多，这里只是做了许多简化和比喻，主要是为了便于大家理解。事实上，无论是哪种思路，都面临着巨大的挑战。首先是如何构建一个足够复杂的世界模型或空间模型，使其能够涵盖足够多的真实世界信息。其次是如何设计有效的反馈机制，使大模型能够在不断试错中逐步提升自己的能力。如何确保大模型在学习过程中不会出现偏差或失控，也是一个亟待解决的问题。尽管困难重重，但这些探索无疑为未来的AI发展提供了重要的方向。随着技术的进步和研究的深入，相信有一天我们能够找到一条通往AGI的道路。那时，AI将不再是简单的工具，而是能够真正理解并参与到人类社会中的智能伙伴。这不仅将改变我们的生活方式，还将推动科学、艺术、教育等多个领域的革命性变革。虽然目前的进展还不足以让我们看到明确的答案，但每一次尝试都是向前迈出的重要一步。未来充满了无限的可能性，值得我们期待和努力。

举报有用（0）分享收藏

AI如何突破数据瓶颈？三种思路探索通用智能

1个回答

yaya_shen

热门话题

相关问题