2024年2月21日NVIDIA与Google发布Gemma优化功能?

GoogleNVIDIA

1个回答

写回答

15949551764

2026-02-11 14:10

+ 关注

NVIDIA
NVIDIA

NVIDIAGoogle将在NVIDIA的所有AI平台发布针对Gemma的优化功能。Gemma是Google最新、最先进的轻量级2B和7B开放语言模型,能在任何地方运行,这有助于降低成本,加速特定领域用户案例的创新进程。NVIDIA团队与Google团队密切协作,借助NVIDIA TensorRT - LLM(一个能优化大型语言模型推理性能的开源库),在数据中心的NVIDIA GPU、云计算以及本地装有NVIDIA RTX GPU的PC运行时,提升Gemma的性能。

Gemma模型的安全性是通过广泛的数据管护和安全导向的训练方法来构建的。预训练和指令调整数据集里的个人识别信息(PII)过滤能去除诸如社会安全号之类的标识符。而且,基于人类反馈开展的大量微调和强化学习(RLHF),可使指令调整模型的行为符合负责任的要求。开发者以超6万亿个令牌来训练,就能放心构建和部署高性能且负责任的高级AI应用程序了。TensorRT - LLM包含诸多优化与内核,这有助于提升推理的吞吐量并减少延迟。Gemma的性能可通过TensorRT - LLM的三项独特功能得到提升,分别是FP8、XQA以及INT4激活感知权重量化(INT4 AWQ)。FP8是深度学习应用程序加速进程中的自然发展成果,突破了现代处理器中常见的16位格式。它能在确保准确性的同时,提高矩阵乘法与内存传输的吞吐量。在受内存带宽限制的模型里,FP8有助于小批量处理,且在计算密度和内存容量关键时,处理大批量任务也很出色。

XQA是NVIDIA AI开发的新内核,它支持组查询注意力与多查询注意力。在生成阶段,XQA可进行优化并优化波束搜索。NVIDIA GPU缩短了数据加载和转换时间,在相同的延迟预算下提高了吞吐量。INT4 AWQ也得到了TensorRT - LLM的支持。对于批量不超过4的小工作负载,AWQ有着卓越性能。它能降低网络的内存占用,大幅提升受内存带宽限制的应用程序的性能。AWQ是一种仅使用低位权重的量化方法,可减少量化误差,还能利用激活函数保护重要权重。TensorRT - LLM的自定义内核适用于INT4 AWQ,它融合了INT4和AWQ的长处,能依据LLM的相对重要性把权重压缩到4位,且在FP16中进行计算。这样做能够比其他4位方法有更高的准确性,还能减少内存占用,大大提升速度。TensorRT - LLM搭载NVIDIA H200 Tensor Core GPU时,能让Gemma 2B和Gemma 7B模型有卓越性能表现。单个H200 GPU在Gemma 2B模型里,每秒能提供超79000个令牌,对于更大的Gemma 7B模型,每秒也可提供将近19000个令牌。Gemma 2B模型搭载TensorRT - LLM,凭借这种性能,仅在一个H200 GPU上部署时,就能为3000多个并发用户提供实时延迟服务。

Google
Google

多个经过优化的TensorRT - LLM Gemma - 2B和Gemma - 7B模型检查点,预训练版本和指令调优版本均包含在内,如今已能在NGC上获取。这些检查点可用于在NVIDIA GPU(含消费级RTX系统)上运行优化模型。很快,您就能在Omniverse里体验到经TensorRT - LLM优化的FP8量化模型版本了。这些模型依托于顶尖的NVIDIA库,而且只需一行代码就能集成快速的LLM推理。开发者能够运用NVIDIA NeMo框架在生产环境里定制并部署Gemma。NeMo框架具备多种自定义技术,像监督微调、采用LoRA与RLHF的参数高效微调,还有支持训练的3D并行性。借助Notebook开始编码,运用Gemma和NeMo。NVIDIA Chat with RTX技术的演示版很快也会支持Gemma。这个演示版利用检索增强生成(RAG)和TensorRT - LLM软件,让用户能在本地的Windows RTX个人电脑上使用生成式AI功能。

文章来源于:

作者为Anjali Shah和Ankit Patel。

作者为Ankit Patel。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号