2026-01-09 20:25
Meta
可参考A Survey on Model Compression for Large Language Models中的总结:
还有一些QAT方法,例如Meta近期推出的轻量级llama模型(量化1B+3B)就运用了QAT with LoRA和SpinQuant这两种方法。KV - Cache的量化在LLM推理中也基本成了标配。
关于我们|免责条款|版权声明|侵权举报|隐私政策|联系我们
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号