
AMD
不会的现代编译器的自动向量化效果出色,稍作代码优化即可生成 AVX 指令,而深入优化至 AVX512 也能带来显著收益。一个架构设计者如果思维正常,在增强 AVX2 带宽时,通常会考虑复用数据路径以同步提升 AVX512 对应类型的带宽,反之亦然。一般情况下,不会单独提高 AVX512 的带宽而忽略 AVX2 带宽的提升。当流水线条数尚未饱和时,例如从 1x512 bit + 2x256 bit 提升至 2x512 bit + 4x256 bit,此时仅需 8r4w 的 PRF 即可满足需求。然而,像 Zen4 这样本身已达到 4x256 bit 的架构,若要提升数据处理带宽,有两条可行路径:zen5 选择了 4x512 的方案。依我所见,这是因为 8x256 对应 16r8w、数据宽度 256 的 PRF,这对高频率 CPU 来说实现难度较大,存在较多挑战。在大模型时代,半精度算力需求无上限。仅靠2x512位FMA单元不够,
AMD若加入AMX扩展会更强大,有助于提升计算效率与竞争力。我心中理想的
AI架构已近在咫尺,
AMD的Genoa X3D仅一步之遥。期待zen5
服务器能留有空间,让我来实现这最后的突破:)对于1),如下看似平常的代码也能生成AVX指令:
以下是生成的汇编代码: