2024年5月前有哪些开源大模型？

1个回答

alw姚姚

2025-12-13 08:51

Meta
Meta

不过当前最强的语言大模型可能是Meta在4月18日推出的Llama 3。国内外有许多优秀的开源模型。我们要为开源贡献者点赞，他们无私开源，推动了互联网和人工智能语言大模型不断进步、发展。

人工智能技术不断发展，大模型在科技企业竞争里逐渐成为前沿赛道。截至2024年5月，都有哪些开源的大模型？我们来盘点一下吧。在当下生成式人工智能（Generative AI）的科技浪潮里，大型语言模型（Large Language Models，缩写为LLM）起着不可或缺的作用。LLM是具有变革性推动作用的存在，其技术核心为Transformers架构，这一架构在人类语言的理解、生成和处理上是非常强大的神经网络技术。

大模型的开发成本高昂，于是有了开源和闭源两种方式。开源是把制作内容公开，放在网络平台供公众下载到本地，闭源则不公开这些内容。开源大模型，业界看法各有不同。百度CEO李彦宏曾公开称开源模型会愈发落后。他觉得，以前大家认为开源便宜，可在大模型场景中，开源是最贵的，所以开源模型会越来越落后。

互联网

不过，360集团创始人周鸿祎有着不同观点，他觉得开源是科技发展的重要推动力。linux源于开源，今天的互联网也离不开linux。他倡导企业与开发者善用开源资源，携手推动科技不断发展进步。2024年4月18日，Meta于官网宣称其旗下最新开源大模型Llama 3已发布。当前，Llama 3已开放80亿（8B）和700亿（70B）这两个小参数版本。

Meta官方解读称，Llama 3在其定制的两个24k GPU集群上，用超15TB数据训练。此数据量是Llama 2所用数据的7倍，其中代码量为Llama 2的4倍。

Meta又推出了一套全新且高质量的人类评估数据集。这个评估集涵盖了1800个提示，涉及12个核心用途，包括从寻求建议、头脑风暴，到分类、问答（封闭式与开放式）、编码、创意写作、信息提取、角色塑造、推理、重写和总结等复杂任务。

Meta开展了全面的人类评估研究，以将Llama 3与同期竞争的大型语言模型作比较。这些比较涵盖了Claude Sonnet、Mistral Medium以及被广泛认可的GPT - 3.5等模型。评估者依据构建好的评估集，细致地进行了偏好排名。结果表明，在模拟真实世界应用场景时，Llama 3性能极佳，其偏好率至少达到了52.9%。Meta在GitHub、Hugging Face、Replicate平台开源了其Llama 3模型。开发人员能借助工具定制和微调Llama 3，使之符合特定用例与需求。有兴趣的开发者可查看官方入门指南，然后去下载部署。Github的地址：2024年3月，马斯克宣称开源Grok - 1。此模型由xAI全新训练，具备314亿参数，并且采用了混合专家（MoE）层结构。

xAI发布大型语言模型Grok - 1的基本模型权重与网络架构，并且采用了Apache - 2.0许可证。据介绍，2023年10月Grok基于JAX和Rust，通过自定义训练堆栈开发出其架构，并且运用了创新的神经网络设计方法。

Grok - 1的大小为314B，这就要求机器有足够的GPU内存。据网友推算，或许得有一台GPU内存达628GB的机器，差不多是8个80GB的H100，这样才可能用示例代码测试该模型。Github的地址为：2024年2月，谷歌推出全新开源模型系列Gemma。与Gemini相比，Gemma更轻量，一直免费可用，模型权重开源，还允许用于商业用途。

此次发布的模型包含两种权重规模，分别是Gemma 2B与Gemma 7B。各规模均有预训练版与指令微调版。想使用的人能够经由Kaggle、谷歌的Colab Notebook或者借助Google Cloud进行访问。

谷歌推出Gemma时的策略与之前Gemini模型大相径庭。它直接把Gemma推向开源生态系统，这打破了谷歌以往倾向于将核心技术封闭起来的做法。Gemma具有开源特性，这一点和Gemini有着鲜明的对比。若想使用Gemini，开发者只能经由特定接口，或在谷歌自家的Vertex AI平台操作。而Gemma是开源的，这就降低了使用门槛，开发者能直接获取其源代码与权重，自由修改和再训练来满足特定需求。官方网址：

Mistral Large由欧洲打造，它支持英语、法语、西班牙语、德语和意大利语。据说，该模型能深入理解这些语言，不但精准掌握各语言复杂语法规则，还能细致捕捉文化背景的微妙差异。

Mistral Large在功能设计方面注重指令的精准执行能力，开发者可轻松制定、施行个性化审核与管理策略。

此外，它原生就集成了函数调用功能，还能自定义输出模式的限制。这大大提升了应用程序的扩展能力，简化技术集成流程，加速开发团队技术栈的现代化迭代。官方网址：2024年2月，通义千问大模型（Qwen）1.5版已上线。新版大模型有0.5B、1.8B、4B、7B、14B和72B这六个型号尺寸。其最强版本在性能上超过了GPT 3.5、Mistral - Medium（包含Base模型和Chat模型），并且还支持多种语言。

Qwen 1.5发布还有以下这些重点：通义千问团队以更先进的大模型为评委，在MT - Bench和Alpaca - Eval这两个常用基准上，对Qwen1.5做了初步评估，其评估结果如下：

不同模型尺寸下，Qwen1.5在评估基准上性能强劲。其72B版本于全部基准测试里均超越Llama2 - 70B，彰显出在语言理解、推理和数学等方面的能力。GITHUB的地址为：智谱AI推出的ChatGLM系列属于高性能大规模语言模型，效能卓越，又有开源政策，在国内外大模型领域都颇负盛名。

ChatGLM系列是国产大语言模型里极为强大且著名的模型。2023年3月第一代ChatGLM - 6B推出且开源，不久后就备受关注并被广泛使用。到了3个月后的6月，ChatGLM2发布，又一次引发广泛关注。

GITHUB的地址：Skywork - 13B属于基于Transformer架构的大语言模型（LLMs），这一系列模型由昆仑万维进行开源。

同时，它还大方地分享了模型评估标准、数据配置策略和训练基础设施的优化方案，有力推动了知识共享与技术创新。它的开源模式非常友好，用户只要下载模型，并且同意Skywork模型社区许可协议，就能够直接用于商业场景，不需要额外的商业授权步骤，也没有使用者的行业背景、公司规模和用户基数方面的限制，开放性极高。GITHUB的地址为：书生开源大模型是上海人工智能实验室与商汤科技等机构合作开发的多模态、多任务通用大模型系列。这些模型包含书生·多模态、书生·浦语、书生·天际等基础模型，还有视觉、语言处理等特定领域的模型。

书生开源大模型的特别之处是开源。它为学术界和产业界提供全链条的研发与应用支持，以推动人工智能技术发展和应用。书生·多模态有200亿参数，通过80亿海量多模态样本训练，能识别理解350万语义标签，涵盖开放世界常见类别与概念。书生·多模态模型突破AI传统的局限，向着真实世界的复杂情况迈进。它掌握超350万种开放语义，包含日常各种物体、动作和字符，实现从预设任务向开放场景的跨越。

分析画作元素、构思诗意且遵循格律来创作，这一过程成功应用了跨模态联合学习，还借鉴中国古典文学，像韦庄诗意构造佳句。GITHUB的地址为：以上介绍后，你是否知道当前主要的开源大模型有哪些？

愿我的介绍能对你有所帮助。我是德里克文，做室内设计师多年了，对AI绘画和人工智能兴趣浓厚。要是对我的文章感兴趣，烦请关注、点赞、收藏，谢谢！

举报有用（0）分享收藏

2024年5月前有哪些开源大模型？

1个回答

alw姚姚

热门话题

相关问题