为什么TPU的能效能吊打GPU?这要从底层架构说起。

GPU是为图形处理设计的“通用”并行处理器,为了处理从游戏纹理到科学模拟的各种任务,它背负了沉重的“架构包袱”——比如复杂的缓存、分支预测和线程管理,这些都消耗了大量的芯片面积和能耗。

而TPU则极其“极简主义”。它剥离了光栅化、纹理映射等所有无关硬件,采用了一种独特的“脉动阵列”(Systolic Array)架构。

在传统GPU中,每次计算都需要在内存和计算单元之间搬运数据,形成了著名的“冯·诺依曼瓶颈”。而在TPU的脉动阵列中,数据像血液流过心脏一样流过芯片。这大幅减少了对HBM(高带宽内存)的读写次数,让芯片把时间花在计算上,而不是等待数据上。

这种设计让 #谷歌 TPU在“每焦耳运算量”(Operations Per Joule)上拥有碾压级的优势。
为什么TPU的能效能吊打GPU?这要从底层架构说起。GPU是为图形处理设计的“通用”并行处理器,为了处理从游戏纹理到科学模拟的各种任务,它背负了沉重的“架构包袱”——比如复杂的缓存、分支预测和线程管理,这些都消耗了大量的芯片面积和能耗。而TPU则极其“极简主义”。它剥离了光栅化、纹理映射等所有无关硬件,采用了一种独特的“脉动阵列”(Systolic Array)架构。在传统GPU中,每次计算都需要在内存和计算单元之间搬运数据,形成了著名的“冯·诺依曼瓶颈”。而在TPU的脉动阵列中,数据像血液流过心脏一样流过芯片。这大幅减少了对HBM(高带宽内存)的读写次数,让芯片把时间花在计算上,而不是等待数据上。这种设计让 #谷歌 TPU在“每焦耳运算量”(Operations Per Joule)上拥有碾压级的优势。
0 Comments ·0 Shares ·143 Views
叙旧 https://v.xu9.net