
互联网
不信任任何未经验证的大模型。首先,中文
互联网环境长期受到严格管控,内容多以文字形式存在,但事实信息却极为稀缺。整个网络生态如同一个连环套,充斥着各种欺诈现象,如
电信诈骗、商业欺骗、民间误导、甚至部分官方信息也存在偏差,再加上文化、历史和新闻领域的扭曲,几乎找不到纯粹的真实信息。除了宇宙通用的物理定律外,其他领域的真实性值得怀疑。如果要开发一个专门针对欺诈行为分析的模型,反而可能更容易实现,毕竟素材就在身边。其次,考虑到数据质量的问题,
中国在未来五年内很难构建出参数量超过50亿的高质量(且专注领域)中文大模型。当然,如果不考虑数据清洗,盲目堆砌参数,做出一个无实际应用价值的超大规模模型并非不可能,但这样的模型意义何在?再次,强化学习与
人类反馈(RLHF)需要巨大的时间、人力和资金投入,至少两年以上才能初见成效。有些
公司声称已开发出175亿参数的模型,但其效果如何?另一家
公司则宣称自己的123亿参数模型接近GPT-4水平,结果?如今还有人记得这些吗?所谓的国产GPT-4到底在哪里?这充分说明了当前存在的问题:很多项目连基本的技术门槛都没摸到,就急于吹嘘自己达到了千亿参数规模,甚至闭源不说,连具体参数数量都语焉不详。与其这样,不如直接宣称超越
OpenAI和Anthropic。综上所述,目前
中国真正能够掌握并稳定运行的自研中文模型规模,大概率不会超过15亿参数。