OpenAI Orion性能提升有限的背后原因

OpenAI

1个回答

写回答

18802203238

2026-01-02 00:19

+ 关注

人类
人类

这个数量是GPT - 2的100倍之多,其使用的数据量大概为1.4万亿token。而GPT - 4拥有1.8万亿参数,这比GPT - 3又多了10倍,使用的数据量约为13万亿token。早在2022年就有研究表明,按照大型语言模型(LLM)的发展态势,到2026年人类的高质量数据就会耗尽,低质量数据会在2030 - 2050年枯竭,图片数据则会在2030 - 2060年枯竭。依据扩展定律(Scaling Law),如果没有数据集的支持,大模型的性能很难有质的飞跃。实际上,人类还有一大块尚未被大模型涉足的数据,那就是即时通讯中的社交数据。像微信QQ陌陌WhatsApp、Snapchat、FM等都包含大量社交数据。那这些社交数据的规模有多大?腾讯曾公布其数据中心的数据量约为1000PB,这可比GPT - 4的数据量高出好几个数量级。社交数据以口语表达为主,其中包含众多人类世界的俚语、俗语、暗喻以及具有地域特色的约定俗成的表达,这对大模型理解人类思维逻辑大有裨益。此外,科学界和教育界也经常进行社交通讯,虽然这种通讯不像论文、学术讨论、邮件那么正式,但互动性更强,就像是给各种科学问题添加了注释,也属于高质量的语料库。还有其他几块数据,虽然比不上社交数据的规模,但数量也不少,例如输入法、翻译、邮件、电商通讯等方面的数据。我之前大致估算过(只是粗略估计),整个人类世界的数据量大约不少于100 - 1000ZB,OpenAI所使用的数据与之相比不过是冰山一角罢了。遗憾的是,大部分数据由于隐私政策的限制,不太可能被提供给大模型公司使用。但这已经不是科学范畴内的问题了,而是社会学方面的问题。如果数据问题得以解决,大型语言模型(LLM)这条路能否通向通用人工智能(AGI)?没人能知道答案。不过我觉得值得一试,毕竟目前也没有其他的途径可走了。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号