BitNet1.58优化对LLM未充分训练有何证据?

1个回答

一锤定音

2026-02-11 03:04

达能

二者主要区别在于数据表示，BitNet是1 bit的{-1, 1}，而BitNet1.58变为了约1.58 bit的{-1, 0, 1}。这个模型或许有些用处，不过更关键的是，其结果可能为一个猜测增添了更多依据：当下很多大型语言模型（LLM）都未得到充分训练。我们可以简单地将模型能力的来源归为两类，其一是Transformer结构本身，其二是权重数值。BitNet在训练时实际上给权重添加了一个负向约束，这使得权重的表达能力有所下降。然而模型效果并未大幅下降，这表明模型结构自身就具备相当不错的表达能力。如此一来似乎存在两种可能性，要么是Transformer结构或者当前的训练流程致使权重无法收敛到较好的状态，要么是大家所能获取的人类数据已经无法满足LLM的需求了。还未仔细查看文章中使用的模型规模，如果参数量较大，那很可能是后一种情况。ChatGPT 4采用混合专家模型（MoE）而非单纯继续增加参数，或许也是这个原因。当前的LLM可能就像早期只会模仿人类棋谱的AlphaGo一样，模型的表达能力足够，但人类所能制造的数据是有限的。要是哪家企业找到了让它们自我竞争优化的方法，日后或许会出现更有趣的成果。

举报有用（18）分享收藏

BitNet1.58优化对LLM未充分训练有何证据?

1个回答

一锤定音

热门话题

相关问题