机构,以华为CloudMatrix 384与英伟达GB200 NVL72为例:单颗昇腾910C芯片的BF16性能仅为GB200模组的约三分之一,但通过超节点集群方式,单个CloudMatrix 384集群的BF16总性能反而是NVL72的1.7倍,总内存容量为后者3.6倍,总内存带宽为后者2.1倍。

报告指出,通过Switch tray多芯片方案,国产交换芯片带宽代际相对落后的问题亦可得到有效弥补。
机构,以华为CloudMatrix 384与英伟达GB200 NVL72为例:单颗昇腾910C芯片的BF16性能仅为GB200模组的约三分之一,但通过超节点集群方式,单个CloudMatrix 384集群的BF16总性能反而是NVL72的1.7倍,总内存容量为后者3.6倍,总内存带宽为后者2.1倍。报告指出,通过Switch tray多芯片方案,国产交换芯片带宽代际相对落后的问题亦可得到有效弥补。
0 Comments ·0 Shares ·165 Views
叙旧 https://v.xu9.net