英伟达GTC 2024,Blackwell硬件详细解析与性能提升?

英伟达

1个回答

写回答

Zuoleu

2025-12-26 08:00

+ 关注

NVIDIA
NVIDIA

NVIDIA推出了多款高性能硬件、更激进的DSA计算架构,以及涵盖范围更广的软件生态,还发布了数十项AIGC应用。其中最引人注目的是Blackwell硬件系列,从芯片设计到C2C、机架内和跨机架互联,再到DGX整机、Pod集群及多层级网络拓扑,全方位展现了NVIDIA完整的生态系统与技术实力。这一系列发布不仅体现了性能的飞跃,也进一步巩固了其在计算领域的领导地位。总结和评价GTC 2024的发布内容,以及硬件的基本规格如下:首先是Blackwell硬件,值得注意的是,B100型号未推出,首个GPU型号直接为B200。MCM双芯封装的晶体管总数达到2080亿个(2×104B)。其晶圆制造采用台积电N4P 5nm工艺节点,这是H100所用N4节点的高性能优化版本。根据台积电官方数据,N4P相比N5可提高11%的性能、22%的能效及6%的晶体管密度;而相较于N4,N4P性能还能提升6.6%。由于该工艺多次复用光罩版(reticle),反而降低了技术复杂度。尽管官方未公布单卡B200的TDP数值,但提供了两种系统配置方案,分别适用于风冷DGX机架与液冷NVL72机架。尽管NV没有公布单芯片的具体晶粒尺寸,但从H100的814平方毫米规格推测,Blackwell无疑是一款接近掩膜极限尺寸的巨型芯片,其单芯片尺寸几乎触及N4P 5纳米工艺节点的物理边界。这款GPU通过两颗独立的GPU晶粒借助10TB/s高速接口桥接并整合封装在单一板卡上,这种设计符合Chiplets技术的标准,类似于Apple Silicon的UltraFusion桥接合封方案。该单卡的AI性能达到了20PetaFLOPS,相比H100提升了4倍。更值得注意的是,两颗GPU晶粒之间的互联I/O实现了高达10TB/s(单向5TB/s)的超高带宽,这也是整个集群系统中最快的互连速率。此外,在GB200机型内,GPU与Grace CPU之间提供了双向900GB/s的带宽连接,这一数值远高于传统PCIe标准的64GB/s。这些技术创新不仅显著增强了单卡性能,也为大规模集群系统的高效协作奠定了坚实基础。NVIDIA官方将die2die 10TB/s双向带宽命名为NV-HBI接口(即NV高带宽接口)。这一带宽已大幅超越以AMD MI300为代表的Chiplets常规互连带宽。HBI桥接链路与接口需依赖先进封装技术,涉及更多布线和引脚设计。不过,目前尚不清楚具体采用台积电哪种工艺实现,可能是定制化的CoWoS-xxx方案……

GB200 NVL72核弹机型将18组B200整合到单一主机节点中,配备36个CPU和72个GPU, likely填满一个标准机架。该节点在FP8格式下可达到百亿亿次级(E级)算力水平,性能极为强劲,适合高性能计算与大规模人工智能任务处理需求。FP8精度下的训练算力可达720 PFlops(单个DGX H100 SuperPod为1000P)。该节点具备1.4 EFlops的AI推理能力,配备30TB内存,最高可支持27万亿参数规模的模型(约等于16个GPT-4 MoE 1.8T)。与72个H100相比,GB200 NVL72在模型推理性能上提升了约30倍,同时将成本和能耗降低了约25倍。最大扩展形态的DGX GB200 SuperPod标准配置,在FP4精度下能够提供11.5 ExaFlops的算力和240TB内存,并且支持通过增加额外机架进一步扩展性能。这种强大的硬件架构不仅满足了大规模模型训练与推理的需求,还为未来的性能升级提供了充足的空间。配备2×4片HBM3E内存,总容量达192GB(双GPU各96GB,单颗容量24GB,与H200的HBM规格一致,而H100的HBM3为16GB/颗)。内存带宽高达8TB/s,总线位宽为2×4096bit,时钟频率8Gbps。整体HBM性能较H100提升50%。NVLink v5正式发布,其网卡与交换芯片均采用台积电N4P工艺制造,晶体管密度达到50B。该技术能够在机架内的GPU之间提供1.8TB/s的双向吞吐量,确保576个GPU实现高速互联。此外,它还支持3.6TFlops的网络内计算能力,基于SHARP v4(可扩展分层聚合与缩减协议),用于将集合运算尽可能从CPU卸载到网络设备上,从而减少甚至消除数据在端点间多次传输的需求,进一步优化MPI和机器学习集合操作的性能。显然,这一代NVLink旨在解决大规模模型中MoE架构的通信瓶颈问题。例如,在MoE模型的数据传输、同步以及集成过程中,需要占用大量的带宽资源。而NVLink v5通过提升吞吐能力和计算效率,有效缓解了这些挑战,为构建高效的大规模分布式计算系统提供了关键技术支持。这种设计不仅提升了整体通信效能,也为未来更复杂模型的训练和推理奠定了坚实基础。配备Quantum-X800 InfiniBand和Spectrum?-X800以太网交换设备(搭配ConnectX-8 SuperNIC),网络传输速率可达800Gb/s。相比上一代,X800的带宽提升了5倍。GB200 NVL72还集成了NVIDIA BlueField-3数据处理单元,能够为超大规模人工智能云环境提供强大的支持,包括云网络加速、可组合式存储、零信任安全防护以及GPU计算资源的弹性扩展等功能,从而全面提升数据中心的效率与安全性。支持Transformer V2架构,可动态启用FP8、FP6和FP4精度。同时兼容FP4(tensor)低精度格式进行推理,提供9 PFlops算力,其中FP8算力高达4500 TFlops。根据NV的声明,B200的推理性能相比上一代H100提升了约30倍,能耗却仅为前者的约1/25。在175B参数的GPT-3基准测试中,GB200的表现尤为突出,其推理性能达到H100的7倍,训练算力更是提升至H100的4倍,展现出显著的性能优势与能效优化。需要注意的是,B200中FP32单元数量增长有限,而尽管FP16单元显著增加,官方却更侧重推广FP8甚至FP4。这或许意味着,未来常见的16位精度可能会逐渐退出主流。从FP16起,设计已转向Tensor Core架构,预计将来GPU中90%的计算单元面积将专用于NPU或DSA范式。神经网络模型也将逐步适配FP8或FP4(Tensor)进行收敛,适应这一趋势。集成RAS引擎与AI预测维护功能,保障大规模集群系统长期稳定运行,提升可靠性。集成SecureAI技术,支持可信执行环境与数据加密计算,满足医疗、金融等敏感领域需求。配备800GB/s专用解压缩引擎,显著提升数据库查询速度。

英伟达在其官网AI.NVIDIA.com宣布">http://AI.NVIDIA.com宣布,目标是成为全球人工智能的入口,这一宣言令人震惊。此页面依托于NV企业级云服务,用户界面能够快速构建与应用各类AI模型。第三方企业可利用这些服务开发并部署定制化应用,且无需受限于传统云服务商的严格管理规则。主页上的所有应用均由NV自主研发的AI推理微服务NIM支持,针对其自身及云合作伙伴(如AMZN、DIS、Samsung等)的数十个AI模型进行了优化处理,进一步强化了CUDA生态的主导地位。在定价策略上,采用简单透明的方式:1 GPU/1小时/$1,按年付费享半价优惠,单个GPU年费为4500美元,为企业提供高效且经济的解决方案。更重要的是,NV提供的开发套件、库和工具链能够以CUDA-X微服务的形式调用,适用于RAG、Fence、数据处理及HPC等工程场景。这些微服务可用来构建基于大语言模型和向量数据库的生成式应用,包括以Agent形式呈现的智能体应用,为多样化开发需求提供支持。资本数据显示,全球在2023年至2024年第一季度,用于AI资本支出投入英伟达的资金约为160亿美元。本次GTC发布的AIGC-Infra全家桶十分完整,已无需过多总结。单独分析B200硬件规格意义不大。总体来看,AMD的CDNA架构、英特尔的Gaudi以及Groq这类独特DSA方案都已失去竞争力。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号