专为智能体和 SOTA 模型训练而设计的谷歌新一代 TPU

谷歌发布了新一代张量处理单元(TPU),其中包含两款专用芯片,旨在加速模型训练和智能体工作流。这些工作流需要连续进行多步推理,并实现跨多个模型的动作循环。该公司表示,新款 TPU 在性能、内存和能效方面均有所提升。

据谷歌称,AI 代理的兴起需要专用芯片——它们专为训练和推理而设计,旨在大幅提升特定工作负载的性能。

TPU 8t 在处理大规模、计算密集型的训练工作负载时表现出色,其设计具备更高的计算吞吐量和更强的纵向扩展带宽。TPU 8i 则配备了更高的内存带宽,专为处理对延迟要求极高的推理型工作负载而设计。

在训练方面,这款新推出的芯片旨在最大限度地改进规模和速度。谷歌表示,该芯片的设计旨在将训练前沿模型所需的时间“从数月缩短至数周”。这一目标是通过提高大型集群的计算密度、内存容量和带宽来实现的,其计算性能较上一代芯片提升了近 3 倍。

现在,单个 TPU 8t 超级集群可以扩展至 9600 个芯片和 2 PB 的共享高带宽内存,芯片间带宽是上一代产品的两倍。该架构可提供 121 ExaFlops 的浮点运算性能,并使最复杂的模型可以充分利用一个庞大的内存池。

按照谷歌的说法,该系统可以在单个本地集群中实现近乎线性的扩展,最多可支持一百万个芯片。除了扩展性之外,该设计还通过 10 倍于以往的存储速度以及更高的可靠性、可用性和可维护性,最大限度地提高了系统利用率,减少了因硬件故障、网络中断或检查点重启导致的停机时间。

在推理方面,TPU 8i 芯片更注重持续负载下的响应速度和效率。谷歌指出,代理工作负载涉及长上下文、内存密集型操作以及来自不同代理的并发请求。经过优化后,该芯片通过卸载全局操作来降低延迟,借助高达 288GB 的内存提升内存带宽,将每美元性能提升了 80%。

对于现代的专家混合(MoE)模型,我们将互连(ICI)带宽提升至 19.2 Tb/s。全新的 Boardfly 架构将最大网络直径缩减了 50% 以上,旨在确保系统能够作为一个紧密协作的低延迟整体来运行。

新芯片将带来显著的提升,而谷歌 TPU 的设计理念多年来一直保持相对稳定。

初始 TPU 设计背后的核心理念至今依然成立:通过芯片、硬件、网络和软件(包括模型架构和应用需求)的定制化协同设计,显著地提升能效和绝对性能。

Hacker News 用户 burnte 也表达了同样的观点,他指出:

从键盘到芯片,谷歌的产品无所不包。经过无数次迭代之后,他们已经深谙如何将那些相互争夺资源的不同功能进行分离。

同样地,pmb 指出了谷歌 TPU 产品线的另一大优势:

在开展大型 AI 项目时,基本上只能从英伟达购买或者向谷歌租用。而谷歌能够从整个数据中心的角度来设计其芯片、引擎和系统,将某些方面进行集中管理——这是芯片供应商无法做到的。

用户 amelius 发出了不同的声音。他告诫人们,不要“在别人的王国里建造自己的城堡”,暗示从英伟达采购才是唯一真正的选择,但即便如此,也无法完全消除对供应商锁定的担忧。