LLM量化方法中QAT和PTQ有哪些分类?

1个回答

写回答

2051125373

2026-01-09 20:25

+ 关注

Meta
Meta

量化方法通常可分为QAT(量化感知训练)与PTQ(训练后量化)。PTQ依据量化对象的差异,又可分为两类:一是仅对权重进行量化(weight only quantization);二是对激活值和权重进行量化(activation weight quantization)。当下,LLM主流量化方法依旧是PTQ,像vllm和tensorrt - llm中的SmoothQuant、AWQ以及GPTQ等方法就属于PTQ。在之前所写的一篇文章里,已对这些方法进行了详细介绍,可作参考。

可参考A Survey on Model Compression for Large Language Models中的总结:

还有一些QAT方法,例如Meta近期推出的轻量级llama模型(量化1B+3B)就运用了QAT with LoRA和SpinQuant这两种方法。KV - Cache的量化在LLM推理中也基本成了标配。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号