
电脑
别迷信f16,参数大才是关键,参数越大模型量化损失越小,宁愿要32B的量化,也不选14B的f16精度。下面给大家介绍一种本地部署gemma2 27B/9B的极简方法。这个方法不需要任何技术知识储备,电脑即便没有GPU也没问题,只要内存足够就好。比如16G内存能跑7B模型,24G可跑14B模型,32G能跑32B模型。打开电脑浏览器,访问:下载qwen、yi或者llama3大模型整合包(zip格式,无密码)。
2. 解压zip文件后,在Windows系统中运行其中的flashAI.exe就行,mac系统则运行压缩包内的.dmg,稍等会儿就能启动大模型。

Windows
最后简单讲讲GPU和CPU运行大模型时有何区别。实际上它们的推理速度较为接近,像12代i7 CPU运行7b模型时约为10token/s,而2060 gpu约为30token/s,二者的差距并不明显。
新推出的AI PC会专门优化本地运行大模型。到2025年,核显很可能达到3090运行大模型的水平,端侧大模型时代就要来临了。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号