
AI
仅从单人对话聊天的生成速度来看,M4 Ultra是M4 Pro的4倍,甚至超过了几款显存带宽不到1TBps的专业卡。在这种情形下基本取决于带宽,就算用CPU来推理,插满12通道使带宽提升后速度也还可以,如今的桌面CPU搭配高频内存也能达到M4 Pro一半的速度。
Prefill的情况就差很多了,RTX6000 Ada的速度会达到M4 Ultra的5倍。这是因为此时不再受限于内存,而是取决于算力。AD102的Tensor core有300多T的FP16算力,W7900DS为120多T,苹果M4 Ultra还不到70T,即便有M4 Ultra Extreme也比不上,M4 Ultra Extreme只有再加个矩阵单元才能够追得上。显存大小要是不够的话,多插几张卡就行呗。两张22G的2080ti就能跑72B的模型,速度还比Mac快。还有像V100 16G SXM2这种性价比高的方案。不过多卡会有性能损耗,而且机器肯定不像Mac Studio那么小巧安静。所以Mac只适合那些想在本地部署模型聊天的LLM聊天爱好者,还得是追求优雅安静环境的。要是真的想用LLM实现自动化功能,它的速度可比多插几张卡差远了,毕竟这时候都是大量输入、高并发的情况。而且还能像KTransformers那样把MOE模型的一部分放到内存里,大内存加上单张4090就能以不错的速度跑DeepSeek v2,根本不需要Mac的大显存。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号