开源大模型更新快,如何快速部署?

1个回答

写回答

Liuye0223

2025-10-26 13:26

+ 关注

Meta
Meta

今年才推出的模型也许过几个月就被淘汰了。对此,我觉得更应思考三方面内容,而非当下能部署哪些大模型。一是怎样找到最新的大模型,二是如何判定本地硬件资源能否满足大模型需求,三是怎样快速部署大模型。

基本上,最新开源的大模型都会被上传至huggingface,其中包括多模态、CV、NLP、Audio、Tabular、Reinforcement Learning等各类模型。

上图红框内的是Meta新开源的Llama3,其参数量达8B(即80亿参数)。huggingface网络偶尔会出现不稳定的情况。在此推荐国内较为不错的平台modelscope。

AI
AI

从上图能够看出,借助modelscope差不多能下载全部开源大模型,像零一万物、百川、通义千问等都是可以的。像chatglm2 - 6b,其模型名是chatglm2,参数量达60亿。首先得明确,本地能部署哪些大模型,这取决于你的硬件配置,尤其要留意GPU的显存情况。通常,只要本地机器GPU显存符合大模型要求,基本就能进行本地部署。大模型有7B、13B、70B等很多类别,我的GPU显存该怎么准备?在未考虑任何模型量化技术的情况下:公式:大模型参数(B)乘以2等于模型显存占用(GB)。这是显存占用在非量化时的经验数值,仅作参考。另外,大模型有诸多量化和推理加速技术。普通程序员是否要学?若学的话学哪些技术?模型部署后怎样开展大模型应用?学什么才不被淘汰且有机会增加收入、获取技术红利?推荐网络知学堂旗下AGI课堂官方推出的AI大模型公开课,仅需两天,就能让你不惧AI技术革新,学到前沿技能知识。回到正题,之前我想探究千亿级大模型需要多少计算资源,于是利用云计算资源部署了Qwen1.5 - 110B - Chat,想知道部署它所需的存储资源有多少,还测试了在不量化、8bit量化、4bit量化时的显存消耗情况。以下为实验数据:Qwen1.5 - 110B - Chat下载后会占用208G的硬盘空间。本地部署Qwen1.5 - 110B - Chat未考虑量化技术,其显存占用量达215GB。

Qwen1.5 - 110B - Chat采用8bit量化部署时,会占用113GB显存。在Transformers里使用LLM.int8(),只要提前安装pip install bitsandbytes就行。下面是使用LLM.int8()方法量化transformer模型的具体示例:Qwen1.5 - 110B用4bit量化部署的话,显存占用62GB,大概1块80GB显存的显卡就能进行部署了。所以说回正题,要是想做到极致的本地部署。4bit量化时,若本地机器GPU显存(GB)不小于大模型参数(B)的一半,可尝试本地部署。

若你有显存16GB的T4显卡,能支持部署6B、7B参数量级的大模型,要是采用4bit量化,可尝试部署32B的大模型(但不确保一定能成功)。

推荐ollama,可像下载镜像一样在本地运行大型语言模型。Ollama所支持的模型列表,可查看:https://ollama.com/library。若已安装好ollama,执行如下命令即可启动模型服务:总的来讲,可以借助huggingface或者modelscope迅速知晓最新的大模型,利用公式算出硬件需求,最后用ollama快速部署大模型。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号