
专家
BitNet b1.58与原版BitNet相比,最大的特点是支持零参数设计。我认为,通过略微调整量化函数,可能可以有效调控零参数的比例。当零参数比例显著增加时,可以通过稀疏格式存储权重,从而让每个参数的显存占用平均低于1比特。这种方式实际上相当于在权重层面实现了MoE(
专家混合)机制,而且比传统的MoE更加简洁优雅。然而,BitNet的主要缺陷在于,尽管它能够减少推理阶段的显存消耗,但在训练过程中,优化器状态和梯度仍然需要使用浮点数表示,这导致显存开销依然较高。如果能够将BitNet与一些在训练时节省显存的技术相结合,那么在同等算力和显存条件下,我们可以支持更多参数,从而大幅提升模型的优势。目前,降低优化器状态显存消耗的方法主要是采用offloading技术。而针对梯度显存消耗的优化,ReLoRA或GaLore可能是有效的解决方案。我认为,结合BitNet、稀疏权重以及ReLoRA,可能会是一个非常有趣的研究方向。这一方案有望实现单机环境下的超大规模参数模型训练与推理,具有重要的应用潜力。