英伟达GTC 2024，Blackwell硬件详细解析与性能提升？

1个回答

Zuoleu

2025-12-26 08:00

NVIDIA
NVIDIA

NVIDIA推出了多款高性能硬件、更激进的DSA计算架构，以及涵盖范围更广的软件生态，还发布了数十项AIGC应用。其中最引人注目的是Blackwell硬件系列，从芯片设计到C2C、机架内和跨机架互联，再到DGX整机、Pod集群及多层级网络拓扑，全方位展现了NVIDIA完整的生态系统与技术实力。这一系列发布不仅体现了性能的飞跃，也进一步巩固了其在计算领域的领导地位。总结和评价GTC 2024的发布内容，以及硬件的基本规格如下：首先是Blackwell硬件，值得注意的是，B100型号未推出，首个GPU型号直接为B200。MCM双芯封装的晶体管总数达到2080亿个（2×104B）。其晶圆制造采用台积电N4P 5nm工艺节点，这是H100所用N4节点的高性能优化版本。根据台积电官方数据，N4P相比N5可提高11%的性能、22%的能效及6%的晶体管密度；而相较于N4，N4P性能还能提升6.6%。由于该工艺多次复用光罩版（reticle），反而降低了技术复杂度。尽管官方未公布单卡B200的TDP数值，但提供了两种系统配置方案，分别适用于风冷DGX机架与液冷NVL72机架。尽管NV没有公布单芯片的具体晶粒尺寸，但从H100的814平方毫米规格推测，Blackwell无疑是一款接近掩膜极限尺寸的巨型芯片，其单芯片尺寸几乎触及N4P 5纳米工艺节点的物理边界。这款GPU通过两颗独立的GPU晶粒借助10TB/s高速接口桥接并整合封装在单一板卡上，这种设计符合Chiplets技术的标准，类似于Apple Silicon的UltraFusion桥接合封方案。该单卡的AI性能达到了20PetaFLOPS，相比H100提升了4倍。更值得注意的是，两颗GPU晶粒之间的互联I/O实现了高达10TB/s（单向5TB/s）的超高带宽，这也是整个集群系统中最快的互连速率。此外，在GB200机型内，GPU与Grace CPU之间提供了双向900GB/s的带宽连接，这一数值远高于传统PCIe标准的64GB/s。这些技术创新不仅显著增强了单卡性能，也为大规模集群系统的高效协作奠定了坚实基础。NVIDIA官方将die2die 10TB/s双向带宽命名为NV-HBI接口（即NV高带宽接口）。这一带宽已大幅超越以AMD MI300为代表的Chiplets常规互连带宽。HBI桥接链路与接口需依赖先进封装技术，涉及更多布线和引脚设计。不过，目前尚不清楚具体采用台积电哪种工艺实现，可能是定制化的CoWoS-xxx方案……

GB200 NVL72核弹机型将18组B200整合到单一主机节点中，配备36个CPU和72个GPU， likely填满一个标准机架。该节点在FP8格式下可达到百亿亿次级（E级）算力水平，性能极为强劲，适合高性能计算与大规模人工智能任务处理需求。FP8精度下的训练算力可达720 PFlops（单个DGX H100 SuperPod为1000P）。该节点具备1.4 EFlops的AI推理能力，配备30TB内存，最高可支持27万亿参数规模的模型（约等于16个GPT-4 MoE 1.8T）。与72个H100相比，GB200 NVL72在模型推理性能上提升了约30倍，同时将成本和能耗降低了约25倍。最大扩展形态的DGX GB200 SuperPod标准配置，在FP4精度下能够提供11.5 ExaFlops的算力和240TB内存，并且支持通过增加额外机架进一步扩展性能。这种强大的硬件架构不仅满足了大规模模型训练与推理的需求，还为未来的性能升级提供了充足的空间。配备2×4片HBM3E内存，总容量达192GB（双GPU各96GB，单颗容量24GB，与H200的HBM规格一致，而H100的HBM3为16GB/颗）。内存带宽高达8TB/s，总线位宽为2×4096bit，时钟频率8Gbps。整体HBM性能较H100提升50%。NVLink v5正式发布，其网卡与交换芯片均采用台积电N4P工艺制造，晶体管密度达到50B。该技术能够在机架内的GPU之间提供1.8TB/s的双向吞吐量，确保576个GPU实现高速互联。此外，它还支持3.6TFlops的网络内计算能力，基于SHARP v4（可扩展分层聚合与缩减协议），用于将集合运算尽可能从CPU卸载到网络设备上，从而减少甚至消除数据在端点间多次传输的需求，进一步优化MPI和机器学习集合操作的性能。显然，这一代NVLink旨在解决大规模模型中MoE架构的通信瓶颈问题。例如，在MoE模型的数据传输、同步以及集成过程中，需要占用大量的带宽资源。而NVLink v5通过提升吞吐能力和计算效率，有效缓解了这些挑战，为构建高效的大规模分布式计算系统提供了关键技术支持。这种设计不仅提升了整体通信效能，也为未来更复杂模型的训练和推理奠定了坚实基础。配备Quantum-X800 InfiniBand和Spectrum?-X800以太网交换设备（搭配ConnectX-8 SuperNIC），网络传输速率可达800Gb/s。相比上一代，X800的带宽提升了5倍。GB200 NVL72还集成了NVIDIA BlueField-3数据处理单元，能够为超大规模人工智能云环境提供强大的支持，包括云网络加速、可组合式存储、零信任安全防护以及GPU计算资源的弹性扩展等功能，从而全面提升数据中心的效率与安全性。支持Transformer V2架构，可动态启用FP8、FP6和FP4精度。同时兼容FP4（tensor）低精度格式进行推理，提供9 PFlops算力，其中FP8算力高达4500 TFlops。根据NV的声明，B200的推理性能相比上一代H100提升了约30倍，能耗却仅为前者的约1/25。在175B参数的GPT-3基准测试中，GB200的表现尤为突出，其推理性能达到H100的7倍，训练算力更是提升至H100的4倍，展现出显著的性能优势与能效优化。需要注意的是，B200中FP32单元数量增长有限，而尽管FP16单元显著增加，官方却更侧重推广FP8甚至FP4。这或许意味着，未来常见的16位精度可能会逐渐退出主流。从FP16起，设计已转向Tensor Core架构，预计将来GPU中90%的计算单元面积将专用于NPU或DSA范式。神经网络模型也将逐步适配FP8或FP4（Tensor）进行收敛，适应这一趋势。集成RAS引擎与AI预测维护功能，保障大规模集群系统长期稳定运行，提升可靠性。集成SecureAI技术，支持可信执行环境与数据加密计算，满足医疗、金融等敏感领域需求。配备800GB/s专用解压缩引擎，显著提升数据库查询速度。

英伟达在其官网AI.NVIDIA.com宣布">http://AI.NVIDIA.com宣布，目标是成为全球人工智能的入口，这一宣言令人震惊。此页面依托于NV企业级云服务，用户界面能够快速构建与应用各类AI模型。第三方企业可利用这些服务开发并部署定制化应用，且无需受限于传统云服务商的严格管理规则。主页上的所有应用均由NV自主研发的AI推理微服务NIM支持，针对其自身及云合作伙伴（如AMZN、DIS、Samsung等）的数十个AI模型进行了优化处理，进一步强化了CUDA生态的主导地位。在定价策略上，采用简单透明的方式：1 GPU/1小时/$1，按年付费享半价优惠，单个GPU年费为4500美元，为企业提供高效且经济的解决方案。更重要的是，NV提供的开发套件、库和工具链能够以CUDA-X微服务的形式调用，适用于RAG、Fence、数据处理及HPC等工程场景。这些微服务可用来构建基于大语言模型和向量数据库的生成式应用，包括以Agent形式呈现的智能体应用，为多样化开发需求提供支持。资本数据显示，全球在2023年至2024年第一季度，用于AI资本支出投入英伟达的资金约为160亿美元。本次GTC发布的AIGC-Infra全家桶十分完整，已无需过多总结。单独分析B200硬件规格意义不大。总体来看，AMD的CDNA架构、英特尔的Gaudi以及Groq这类独特DSA方案都已失去竞争力。

举报有用（0）分享收藏

英伟达GTC 2024，Blackwell硬件详细解析与性能提升？

1个回答

Zuoleu

热门话题

相关问题