2024年8月,gemma2相关及本地部署大模型

1个回答

写回答

huangaabb1234

2026-02-10 20:32

+ 关注

电脑
电脑

2024年8月进行更新。结论:gemma2 27B的8位量化版本。Gemma2以最少的参数量达到了超三倍参数模型的能力,胜过Llama3 70B,尤其在中文翻译能力上比Qwen2 70B还强,其9B版本也很优秀,可在6G显卡运行。

别迷信f16,参数大才是关键,参数越大模型量化损失越小,宁愿要32B的量化,也不选14B的f16精度。下面给大家介绍一种本地部署gemma2 27B/9B的极简方法。这个方法不需要任何技术知识储备,电脑即便没有GPU也没问题,只要内存足够就好。比如16G内存能跑7B模型,24G可跑14B模型,32G能跑32B模型。打开电脑浏览器,访问:下载qwen、yi或者llama3大模型整合包(zip格式,无密码)。

2. 解压zip文件后,在Windows系统中运行其中的flashAI.exe就行,mac系统则运行压缩包内的.dmg,稍等会儿就能启动大模型。

Windows
Windows

3. 若要用自己的数据微调大模型,可使用左边的知识库。只要上传文档(实际都在本地),大模型就能学习所提供的知识,以回答垂直领域问题。本地知识库和大模型全程离线,无需担心数据泄露。

最后简单讲讲GPU和CPU运行大模型时有何区别。实际上它们的推理速度较为接近,像12代i7 CPU运行7b模型时约为10token/s,而2060 gpu约为30token/s,二者的差距并不明显。

新推出的AI PC会专门优化本地运行大模型。到2025年,核显很可能达到3090运行大模型的水平,端侧大模型时代就要来临了。

举报有用(6分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号