
Meta
基本上,最新开源的大模型都会被上传至huggingface,其中包括多模态、CV、NLP、Audio、Tabular、Reinforcement Learning等各类模型。
上图红框内的是Meta新开源的Llama3,其参数量达8B(即80亿参数)。huggingface网络偶尔会出现不稳定的情况。在此推荐国内较为不错的平台modelscope。

AI
Qwen1.5 - 110B - Chat采用8bit量化部署时,会占用113GB显存。在Transformers里使用LLM.int8(),只要提前安装pip install bitsandbytes就行。下面是使用LLM.int8()方法量化transformer模型的具体示例:Qwen1.5 - 110B用4bit量化部署的话,显存占用62GB,大概1块80GB显存的显卡就能进行部署了。所以说回正题,要是想做到极致的本地部署。4bit量化时,若本地机器GPU显存(GB)不小于大模型参数(B)的一半,可尝试本地部署。
若你有显存16GB的T4显卡,能支持部署6B、7B参数量级的大模型,要是采用4bit量化,可尝试部署32B的大模型(但不确保一定能成功)。
推荐ollama,可像下载镜像一样在本地运行大型语言模型。Ollama所支持的模型列表,可查看:https://ollama.com/library。若已安装好ollama,执行如下命令即可启动模型服务:总的来讲,可以借助huggingface或者modelscope迅速知晓最新的大模型,利用公式算出硬件需求,最后用ollama快速部署大模型。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号