
NVIDIA
GB200 NVL72核弹机型将18组B200整合到单一主机节点中,配备36个CPU和72个GPU, likely填满一个标准机架。该节点在FP8格式下可达到百亿亿次级(E级)算力水平,性能极为强劲,适合高性能计算与大规模人工智能任务处理需求。FP8精度下的训练算力可达720 PFlops(单个DGX H100 SuperPod为1000P)。该节点具备1.4 EFlops的AI推理能力,配备30TB内存,最高可支持27万亿参数规模的模型(约等于16个GPT-4 MoE 1.8T)。与72个H100相比,GB200 NVL72在模型推理性能上提升了约30倍,同时将成本和能耗降低了约25倍。最大扩展形态的DGX GB200 SuperPod标准配置,在FP4精度下能够提供11.5 ExaFlops的算力和240TB内存,并且支持通过增加额外机架进一步扩展性能。这种强大的硬件架构不仅满足了大规模模型训练与推理的需求,还为未来的性能升级提供了充足的空间。配备2×4片HBM3E内存,总容量达192GB(双GPU各96GB,单颗容量24GB,与H200的HBM规格一致,而H100的HBM3为16GB/颗)。内存带宽高达8TB/s,总线位宽为2×4096bit,时钟频率8Gbps。整体HBM性能较H100提升50%。NVLink v5正式发布,其网卡与交换芯片均采用台积电N4P工艺制造,晶体管密度达到50B。该技术能够在机架内的GPU之间提供1.8TB/s的双向吞吐量,确保576个GPU实现高速互联。此外,它还支持3.6TFlops的网络内计算能力,基于SHARP v4(可扩展分层聚合与缩减协议),用于将集合运算尽可能从CPU卸载到网络设备上,从而减少甚至消除数据在端点间多次传输的需求,进一步优化MPI和机器学习集合操作的性能。显然,这一代NVLink旨在解决大规模模型中MoE架构的通信瓶颈问题。例如,在MoE模型的数据传输、同步以及集成过程中,需要占用大量的带宽资源。而NVLink v5通过提升吞吐能力和计算效率,有效缓解了这些挑战,为构建高效的大规模分布式计算系统提供了关键技术支持。这种设计不仅提升了整体通信效能,也为未来更复杂模型的训练和推理奠定了坚实基础。配备Quantum-X800 InfiniBand和Spectrum?-X800以太网交换设备(搭配ConnectX-8 SuperNIC),网络传输速率可达800Gb/s。相比上一代,X800的带宽提升了5倍。GB200 NVL72还集成了NVIDIA BlueField-3数据处理单元,能够为超大规模人工智能云环境提供强大的支持,包括云网络加速、可组合式存储、零信任安全防护以及GPU计算资源的弹性扩展等功能,从而全面提升数据中心的效率与安全性。支持Transformer V2架构,可动态启用FP8、FP6和FP4精度。同时兼容FP4(tensor)低精度格式进行推理,提供9 PFlops算力,其中FP8算力高达4500 TFlops。根据NV的声明,B200的推理性能相比上一代H100提升了约30倍,能耗却仅为前者的约1/25。在175B参数的GPT-3基准测试中,GB200的表现尤为突出,其推理性能达到H100的7倍,训练算力更是提升至H100的4倍,展现出显著的性能优势与能效优化。需要注意的是,B200中FP32单元数量增长有限,而尽管FP16单元显著增加,官方却更侧重推广FP8甚至FP4。这或许意味着,未来常见的16位精度可能会逐渐退出主流。从FP16起,设计已转向Tensor Core架构,预计将来GPU中90%的计算单元面积将专用于NPU或DSA范式。神经网络模型也将逐步适配FP8或FP4(Tensor)进行收敛,适应这一趋势。集成RAS引擎与AI预测维护功能,保障大规模集群系统长期稳定运行,提升可靠性。集成SecureAI技术,支持可信执行环境与数据加密计算,满足医疗、金融等敏感领域需求。配备800GB/s专用解压缩引擎,显著提升数据库查询速度。
英伟达在其官网AI.NVIDIA.com宣布">http://AI.NVIDIA.com宣布,目标是成为全球人工智能的入口,这一宣言令人震惊。此页面依托于NV企业级云服务,用户界面能够快速构建与应用各类AI模型。第三方企业可利用这些服务开发并部署定制化应用,且无需受限于传统云服务商的严格管理规则。主页上的所有应用均由NV自主研发的AI推理微服务NIM支持,针对其自身及云合作伙伴(如AMZN、DIS、Samsung等)的数十个AI模型进行了优化处理,进一步强化了CUDA生态的主导地位。在定价策略上,采用简单透明的方式:1 GPU/1小时/$1,按年付费享半价优惠,单个GPU年费为4500美元,为企业提供高效且经济的解决方案。更重要的是,NV提供的开发套件、库和工具链能够以CUDA-X微服务的形式调用,适用于RAG、Fence、数据处理及HPC等工程场景。这些微服务可用来构建基于大语言模型和向量数据库的生成式应用,包括以Agent形式呈现的智能体应用,为多样化开发需求提供支持。资本数据显示,全球在2023年至2024年第一季度,用于AI资本支出投入英伟达的资金约为160亿美元。本次GTC发布的AIGC-Infra全家桶十分完整,已无需过多总结。单独分析B200硬件规格意义不大。总体来看,AMD的CDNA架构、英特尔的Gaudi以及Groq这类独特DSA方案都已失去竞争力。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号