对话杨植麟，有没有比Transformer更好的模型？

1个回答

1157606141

2025-10-24 16:50

ABS
ABS

Mamba备受关注。Al21 LABS推出了全球首个融合Transformer、MoE和Mamba的开源大模型Jamba，集当前最热门、最强能力于一身。从现有情况看，Jamba性能表现不俗，适合针对垂直领域进行微调和RAG应用。有兴趣的话，可查阅相关文章了解详情。

2024年3月28日，AI21 LABS发布了首个基于Mamba架构的生产级模型，具备卓越的质量与高效性能。期待未来出现更多以Mamba为基础的大型模型，打破Transformer独占鳌头的局面，推动技术多元化发展。

Jamba在Apache 2.0许可下开放权重，开发者可优化、微调模型性能。Jamba也可通过NVIDIA API目录获取，作为NVIDIA NIM推理微服务，企业应用开发者能够利用NVIDIA AI企业软件平台进行部署。Jamba的推出实现了LLM创新的两大重要突破：一是成功融合了Mamba与Transformer架构；二是将混合SSM-Transformer模型提升至生产级别的规模与质量。这一进展为大模型技术开辟了新的可能性。目前，大型语言模型多基于传统Transformer架构构建，尽管强大，但该架构存在两大主要缺点：内存消耗大和处理长序列效率低。

AI21 LABS开发了结合Mamba与Transformer优势的Joint Attention和Mamba（Jamba）架构。Jamba集成Transformer、Mamba以及专家混合（MoE）层，实现内存、吞吐量和性能的协同优化。这一架构旨在充分发挥两种模型的特点，为人工智能应用提供更高效、更强大的支持。通过创新设计，Jamba在处理复杂任务时展现出卓越的能力。

Jamba的MoE层在推理时仅启用12B参数（可扩展至52B），其混合架构让这些有源参数较同等规模的纯变压器模型更高效。尽管有人尝试扩展Mamba，但参数未超3B。Jamba是首个达到生产规模的同类混合架构模型。要成功扩展Jamba的混合架构，需要一些关键的建筑创新。所示，AI21的Jamba架构采用模块化设计，通过块与层的方式，实现了两种架构的有效融合。每个Jamba块包含一个注意力机制层或Mamba层，接着是多层感知器（MLP）。在每八个层级中，这种设计会产生一个变压器层的整体比例，从而优化性能与效率。

第二个特点是通过混合专家模型（MoE）来提升参数总量，同时减少推理时活跃参数的数量，从而在不大幅提高计算需求的情况下扩展模型容量。为了在单个80GB的GPU上实现模型质量和吞吐量的最大化，对MoE层及专家数量进行了优化，确保为典型推理任务预留充足内存资源。初步评估显示，Jamba在吞吐量和效率等关键指标上表现出色。尽管其当前成绩已达到令人瞩目的里程碑，但随着社区不断通过实验与优化推动这项技术，这些基准还将持续提升和完善。在长序列情境下，吞吐量提升3倍，相比Mixtral 8x7B等同等规模的变压器模型，效率显著提高。

预计这些令人振奋的收益将持续增长，未来通过优化MoE并行性和提升Mamba实现效率等方式进一步增强。

您现在能够在Hugging Face上使用Jamba。该基础模型主要用于微调、训练及开发定制化解决方案，需添加防护措施以确保负责任且安全地使用。此外，指令版本即将通过AI21平台推出测试版供用户尝试。模型链接：AI21lABS/Jamba-v0.1">https://huggingface.co/AI21lABS/Jamba-v0.1，这是一个强大的语言生成模型，适用于多种自然语言处理任务。

博客地址：https://www.AI21.com/blog/announcing-jamba，欢迎访问。此链接将引导您了解最新动态，探索更多内容，请点击查阅。

举报有用（0）分享收藏

对话杨植麟，有没有比Transformer更好的模型？

1个回答

1157606141

热门话题

相关问题