
达能
二者主要区别在于数据表示,BitNet是1 bit的{-1, 1},而BitNet1.58变为了约1.58 bit的{-1, 0, 1}。这个模型或许有些用处,不过更关键的是,其结果可能为一个猜测增添了更多依据:当下很多大型语言模型(LLM)都未得到充分训练。我们可以简单地将模型能力的来源归为两类,其一是Transformer结构本身,其二是权重数值。BitNet在训练时实际上给权重添加了一个负向约束,这使得权重的表
达能力有所下降。然而模型效果并未大幅下降,这表明模型结构自身就具备相当不错的表
达能力。如此一来似乎存在两种可能性,要么是Transformer结构或者当前的训练流程致使权重无法收敛到较好的状态,要么是大家所能获取的
人类数据已经无法满足LLM的需求了。还未仔细查看文章中使用的模型规模,如果参数量较大,那很可能是后一种情况。
ChatGPT 4采用混合
专家模型(MoE)而非单纯继续增加参数,或许也是这个原因。当前的LLM可能就像早期只会模仿
人类棋谱的AlphaGo一样,模型的表
达能力足够,但
人类所能制造的数据是有限的。要是哪家企业找到了让它们自我竞争优化的方法,日后或许会出现更有趣的成果。