开源大模型更新快，如何快速部署？

1个回答

写回答

Liuye0223

2025-10-26 13:26

+ 关注

Meta
Meta

今年才推出的模型也许过几个月就被淘汰了。对此，我觉得更应思考三方面内容，而非当下能部署哪些大模型。一是怎样找到最新的大模型，二是如何判定本地硬件资源能否满足大模型需求，三是怎样快速部署大模型。

基本上，最新开源的大模型都会被上传至huggingface，其中包括多模态、CV、NLP、Audio、Tabular、Reinforcement Learning等各类模型。

上图红框内的是Meta新开源的Llama3，其参数量达8B（即80亿参数）。huggingface网络偶尔会出现不稳定的情况。在此推荐国内较为不错的平台modelscope。

从上图能够看出，借助modelscope差不多能下载全部开源大模型，像零一万物、百川、通义千问等都是可以的。像chatglm2 - 6b，其模型名是chatglm2，参数量达60亿。首先得明确，本地能部署哪些大模型，这取决于你的硬件配置，尤其要留意GPU的显存情况。通常，只要本地机器GPU显存符合大模型要求，基本就能进行本地部署。大模型有7B、13B、70B等很多类别，我的GPU显存该怎么准备？在未考虑任何模型量化技术的情况下：公式：大模型参数（B）乘以2等于模型显存占用（GB）。这是显存占用在非量化时的经验数值，仅作参考。另外，大模型有诸多量化和推理加速技术。普通程序员是否要学？若学的话学哪些技术？模型部署后怎样开展大模型应用？学什么才不被淘汰且有机会增加收入、获取技术红利？推荐网络知学堂旗下AGI课堂官方推出的AI大模型公开课，仅需两天，就能让你不惧AI技术革新，学到前沿技能知识。回到正题，之前我想探究千亿级大模型需要多少计算资源，于是利用云计算资源部署了Qwen1.5 - 110B - Chat，想知道部署它所需的存储资源有多少，还测试了在不量化、8bit量化、4bit量化时的显存消耗情况。以下为实验数据：Qwen1.5 - 110B - Chat下载后会占用208G的硬盘空间。本地部署Qwen1.5 - 110B - Chat未考虑量化技术，其显存占用量达215GB。

Qwen1.5 - 110B - Chat采用8bit量化部署时，会占用113GB显存。在Transformers里使用LLM.int8()，只要提前安装pip install bitsandbytes就行。下面是使用LLM.int8()方法量化transformer模型的具体示例：Qwen1.5 - 110B用4bit量化部署的话，显存占用62GB，大概1块80GB显存的显卡就能进行部署了。所以说回正题，要是想做到极致的本地部署。4bit量化时，若本地机器GPU显存（GB）不小于大模型参数（B）的一半，可尝试本地部署。

若你有显存16GB的T4显卡，能支持部署6B、7B参数量级的大模型，要是采用4bit量化，可尝试部署32B的大模型（但不确保一定能成功）。

推荐ollama，可像下载镜像一样在本地运行大型语言模型。Ollama所支持的模型列表，可查看：https://ollama.com/library。若已安装好ollama，执行如下命令即可启动模型服务：总的来讲，可以借助huggingface或者modelscope迅速知晓最新的大模型，利用公式算出硬件需求，最后用ollama快速部署大模型。

举报有用（0）分享收藏

开源大模型更新快，如何快速部署？

1个回答

Liuye0223

热门话题

相关问题