
NVIDIA
Gemma模型的安全性是通过广泛的数据管护和安全导向的训练方法来构建的。预训练和指令调整数据集里的个人识别信息(PII)过滤能去除诸如社会安全号之类的标识符。而且,基于人类反馈开展的大量微调和强化学习(RLHF),可使指令调整模型的行为符合负责任的要求。开发者以超6万亿个令牌来训练,就能放心构建和部署高性能且负责任的高级AI应用程序了。TensorRT - LLM包含诸多优化与内核,这有助于提升推理的吞吐量并减少延迟。Gemma的性能可通过TensorRT - LLM的三项独特功能得到提升,分别是FP8、XQA以及INT4激活感知权重量化(INT4 AWQ)。FP8是深度学习应用程序加速进程中的自然发展成果,突破了现代处理器中常见的16位格式。它能在确保准确性的同时,提高矩阵乘法与内存传输的吞吐量。在受内存带宽限制的模型里,FP8有助于小批量处理,且在计算密度和内存容量关键时,处理大批量任务也很出色。
XQA是NVIDIA AI开发的新内核,它支持组查询注意力与多查询注意力。在生成阶段,XQA可进行优化并优化波束搜索。NVIDIA GPU缩短了数据加载和转换时间,在相同的延迟预算下提高了吞吐量。INT4 AWQ也得到了TensorRT - LLM的支持。对于批量不超过4的小工作负载,AWQ有着卓越性能。它能降低网络的内存占用,大幅提升受内存带宽限制的应用程序的性能。AWQ是一种仅使用低位权重的量化方法,可减少量化误差,还能利用激活函数保护重要权重。TensorRT - LLM的自定义内核适用于INT4 AWQ,它融合了INT4和AWQ的长处,能依据LLM的相对重要性把权重压缩到4位,且在FP16中进行计算。这样做能够比其他4位方法有更高的准确性,还能减少内存占用,大大提升速度。TensorRT - LLM搭载NVIDIA H200 Tensor Core GPU时,能让Gemma 2B和Gemma 7B模型有卓越性能表现。单个H200 GPU在Gemma 2B模型里,每秒能提供超79000个令牌,对于更大的Gemma 7B模型,每秒也可提供将近19000个令牌。Gemma 2B模型搭载TensorRT - LLM,凭借这种性能,仅在一个H200 GPU上部署时,就能为3000多个并发用户提供实时延迟服务。

Google
文章来源于:
作者为Anjali Shah和Ankit Patel。
作者为Ankit Patel。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号