有几个问题想请教,特别是关于模型规模的对比部分。比如,论文中提到的b1.58模型规模是如何计算得出的?另外,最近看到我们学校新发布的一篇论文,内容很有趣。该研究在后训练阶段对大语言模型(LLM)进行了1-2比特量化的尝试,并取得了不错的成果,不仅实现了帕累托改进(Pareto Improvement),还在矩阵乘法过程中避免了乘法运算的开销。这是否意味着未来模型优化的一个重要方向?以下是我的一些看法:这篇论文与去年提出的1比特BitNet思路类似,在对比实验中保持了模型规模的一致性。但这种方式与传统的压缩方案有所不同。例如,4比特权重量化可以在无损压缩的同时加速推理、节省显存,并将模型大小缩减至原来的四分之一。而本文 若要维持模型规模不变,则需要增加参数数量以弥补低精度量化带来的信息损失,相比FP16模型,其参数总量实际上会更多。从这个角度看,我个人更倾向于训练后压缩的方法,因为它能在减少资源消耗的同时保持或接近原始性能。相比之下,本文更像是对新型权重表达方式的一种可行性探索,但其具体模型结构设计、资源消耗等问题仍有待深入分析。当然,以上仅为个人观点,如有不同意见,欢迎各位交流讨论。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号