2024年8月，gemma2相关及本地部署大模型

1个回答

huangaabb1234

2026-02-10 20:32

电脑

2024年8月进行更新。结论：gemma2 27B的8位量化版本。Gemma2以最少的参数量达到了超三倍参数模型的能力，胜过Llama3 70B，尤其在中文翻译能力上比Qwen2 70B还强，其9B版本也很优秀，可在6G显卡运行。

别迷信f16，参数大才是关键，参数越大模型量化损失越小，宁愿要32B的量化，也不选14B的f16精度。下面给大家介绍一种本地部署gemma2 27B/9B的极简方法。这个方法不需要任何技术知识储备，电脑即便没有GPU也没问题，只要内存足够就好。比如16G内存能跑7B模型，24G可跑14B模型，32G能跑32B模型。打开电脑浏览器，访问：下载qwen、yi或者llama3大模型整合包（zip格式，无密码）。

2. 解压zip文件后，在Windows系统中运行其中的flashAI.exe就行，mac系统则运行压缩包内的.dmg，稍等会儿就能启动大模型。

Windows
Windows

3. 若要用自己的数据微调大模型，可使用左边的知识库。只要上传文档（实际都在本地），大模型就能学习所提供的知识，以回答垂直领域问题。本地知识库和大模型全程离线，无需担心数据泄露。

最后简单讲讲GPU和CPU运行大模型时有何区别。实际上它们的推理速度较为接近，像12代i7 CPU运行7b模型时约为10token/s，而2060 gpu约为30token/s，二者的差距并不明显。

新推出的AI PC会专门优化本地运行大模型。到2025年，核显很可能达到3090运行大模型的水平，端侧大模型时代就要来临了。

举报有用（6）分享收藏

2024年8月，gemma2相关及本地部署大模型

1个回答

huangaabb1234

热门话题

相关问题