
ABS
2024年3月28日,AI21 LABS发布了首个基于Mamba架构的生产级模型,具备卓越的质量与高效性能。期待未来出现更多以Mamba为基础的大型模型,打破Transformer独占鳌头的局面,推动技术多元化发展。
Jamba在Apache 2.0许可下开放权重,开发者可优化、微调模型性能。Jamba也可通过NVIDIA API目录获取,作为NVIDIA NIM推理微服务,企业应用开发者能够利用NVIDIA AI企业软件平台进行部署。Jamba的推出实现了LLM创新的两大重要突破:一是成功融合了Mamba与Transformer架构;二是将混合SSM-Transformer模型提升至生产级别的规模与质量。这一进展为大模型技术开辟了新的可能性。目前,大型语言模型多基于传统Transformer架构构建,尽管强大,但该架构存在两大主要缺点:内存消耗大和处理长序列效率低。

AI
Jamba的MoE层在推理时仅启用12B参数(可扩展至52B),其混合架构让这些有源参数较同等规模的纯变压器模型更高效。尽管有人尝试扩展Mamba,但参数未超3B。Jamba是首个达到生产规模的同类混合架构模型。要成功扩展Jamba的混合架构,需要一些关键的建筑创新。所示,AI21的Jamba架构采用模块化设计,通过块与层的方式,实现了两种架构的有效融合。每个Jamba块包含一个注意力机制层或Mamba层,接着是多层感知器(MLP)。在每八个层级中,这种设计会产生一个变压器层的整体比例,从而优化性能与效率。
第二个特点是通过混合专家模型(MoE)来提升参数总量,同时减少推理时活跃参数的数量,从而在不大幅提高计算需求的情况下扩展模型容量。为了在单个80GB的GPU上实现模型质量和吞吐量的最大化,对MoE层及专家数量进行了优化,确保为典型推理任务预留充足内存资源。初步评估显示,Jamba在吞吐量和效率等关键指标上表现出色。尽管其当前成绩已达到令人瞩目的里程碑,但随着社区不断通过实验与优化推动这项技术,这些基准还将持续提升和完善。在长序列情境下,吞吐量提升3倍,相比Mixtral 8x7B等同等规模的变压器模型,效率显著提高。
预计这些令人振奋的收益将持续增长,未来通过优化MoE并行性和提升Mamba实现效率等方式进一步增强。
您现在能够在Hugging Face上使用Jamba。该基础模型主要用于微调、训练及开发定制化解决方案,需添加防护措施以确保负责任且安全地使用。此外,指令版本即将通过AI21平台推出测试版供用户尝试。模型链接:AI21lABS/Jamba-v0.1">https://huggingface.co/AI21lABS/Jamba-v0.1,这是一个强大的语言生成模型,适用于多种自然语言处理任务。
博客地址:https://www.AI21.com/blog/announcing-jamba,欢迎访问。此链接将引导您了解最新动态,探索更多内容,请点击查阅。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号