LLM量化方法中QAT和PTQ有哪些分类？

1个回答

2051125373

2026-01-09 20:25

Meta
Meta

量化方法通常可分为QAT（量化感知训练）与PTQ（训练后量化）。PTQ依据量化对象的差异，又可分为两类：一是仅对权重进行量化（weight only quantization）；二是对激活值和权重进行量化（activation weight quantization）。当下，LLM主流量化方法依旧是PTQ，像vllm和tensorrt - llm中的SmoothQuant、AWQ以及GPTQ等方法就属于PTQ。在之前所写的一篇文章里，已对这些方法进行了详细介绍，可作参考。

可参考A Survey on Model Compression for Large Language Models中的总结：

还有一些QAT方法，例如Meta近期推出的轻量级llama模型（量化1B+3B）就运用了QAT with LoRA和SpinQuant这两种方法。KV - Cache的量化在LLM推理中也基本成了标配。

举报有用（0）分享收藏

LLM量化方法中QAT和PTQ有哪些分类？

1个回答

2051125373

热门话题

相关问题