模型发展下一个阶段应如何获取数据？

1个回答

大美ya

2026-01-02 00:15

本科

这个问题其实暗指了一种关于AGI（通用人工智能）的倾向，那就是认为模型强大了，AGI就达成了。我们有必要重新思考模型和智力之间的关联。我认为知识存在一种内在的特性，像GPT - 4这样的模型，已经构建起了对世界的常识性理解，这可以类比为完成了本科教育。GPT - 4能达到这种水平，是因为它大量且高频地接触海量的常识数据，从而形成了一个常识模型。可以说GPT - 4的卓越表现是二三十年来互联网常识数据积累的成果。再进一步看专业领域，这里需要的是专业知识库，而不是那种普遍意义上的智力大幅提升，不是通过纯粹的推理就能无所不知，那是罗贯中笔下诸葛亮的形象。我感觉我们或许对智力奇迹期待过高了，我觉得诸葛亮更需要的是探马（情报来源），而不是羽毛扇（象征智慧却有点玄虚的东西）。一个硕士生和一个本科生，在智力层面差距不大，硕士生多出来的只是专业知识方面的经验。所以，我的看法是，下一个阶段要去寻找海量的硕士/博士数据，让模型充分接触这些数据。仅依靠常识数据，就算把GPU用到极限，也无法从量子力学、分子动力学推导出蛋白质折叠这样的专业知识。问题就在于此，ScaleAI的小王已经多次发出警告，专业数据非常稀缺，和满大街的网文相比少得可怜。通过现有的知识库来创建合成数据会是一个阶段性的办法，在形式上增加多样性，这就好比多样的烹饪方式能让模型更容易消化稀有数据，但最终我们还是需要更多的元数据。要是全球的专家不联合起来构建一个庞大、丰富且带有专家标注的数据库，那模型不就只能天天看网络小说了吗？传统模型的智力构建有三个重要要素，其中最重要的还是数据，模型从本质上来说是经验性的。我觉得o1型的Q＊模型，最终会朝着更纯粹的逻辑推理方向发展，会越来越靠近数学和逻辑学。不过越接近应用领域，就越需要实际的实验数据，比如生物制药领域，所谓的逻辑实证，光靠逻辑是不行的。——尾巴：刘邦拍着张良的肩膀说：MUHAHAHA，你在营帐中谋划就能让军队在千里之外取胜，我在这方面不如你啊。张良揉了揉肩膀回应：谢谢，……还有100个探马。（小声说道）

举报有用（0）分享收藏

模型发展下一个阶段应如何获取数据？

1个回答

大美ya

热门话题

相关问题