OpenAI Orion性能提升有限的背后原因

1个回答

18802203238

2026-01-02 00:19

人类

这个数量是GPT - 2的100倍之多，其使用的数据量大概为1.4万亿token。而GPT - 4拥有1.8万亿参数，这比GPT - 3又多了10倍，使用的数据量约为13万亿token。早在2022年就有研究表明，按照大型语言模型（LLM）的发展态势，到2026年人类的高质量数据就会耗尽，低质量数据会在2030 - 2050年枯竭，图片数据则会在2030 - 2060年枯竭。依据扩展定律（Scaling Law），如果没有数据集的支持，大模型的性能很难有质的飞跃。实际上，人类还有一大块尚未被大模型涉足的数据，那就是即时通讯中的社交数据。像微信、QQ、陌陌、WhatsApp、Snapchat、FM等都包含大量社交数据。那这些社交数据的规模有多大？腾讯曾公布其数据中心的数据量约为1000PB，这可比GPT - 4的数据量高出好几个数量级。社交数据以口语表达为主，其中包含众多人类世界的俚语、俗语、暗喻以及具有地域特色的约定俗成的表达，这对大模型理解人类思维逻辑大有裨益。此外，科学界和教育界也经常进行社交通讯，虽然这种通讯不像论文、学术讨论、邮件那么正式，但互动性更强，就像是给各种科学问题添加了注释，也属于高质量的语料库。还有其他几块数据，虽然比不上社交数据的规模，但数量也不少，例如输入法、翻译、邮件、电商通讯等方面的数据。我之前大致估算过（只是粗略估计），整个人类世界的数据量大约不少于100 - 1000ZB，OpenAI所使用的数据与之相比不过是冰山一角罢了。遗憾的是，大部分数据由于隐私政策的限制，不太可能被提供给大模型公司使用。但这已经不是科学范畴内的问题了，而是社会学方面的问题。如果数据问题得以解决，大型语言模型（LLM）这条路能否通向通用人工智能（AGI）？没人能知道答案。不过我觉得值得一试，毕竟目前也没有其他的途径可走了。

举报有用（0）分享收藏

OpenAI Orion性能提升有限的背后原因

1个回答

18802203238

热门话题

相关问题