专为智能体和 SOTA 模型训练而设计的谷歌新一代 TPU

谷歌发布了新一代张量处理单元（TPU），其中包含两款专用芯片，旨在加速模型训练和智能体工作流。这些工作流需要连续进行多步推理，并实现跨多个模型的动作循环。该公司表示，新款 TPU 在性能、内存和能效方面均有所提升。

据谷歌称，AI 代理的兴起需要专用芯片——它们专为训练和推理而设计，旨在大幅提升特定工作负载的性能。

TPU 8t 在处理大规模、计算密集型的训练工作负载时表现出色，其设计具备更高的计算吞吐量和更强的纵向扩展带宽。TPU 8i 则配备了更高的内存带宽，专为处理对延迟要求极高的推理型工作负载而设计。

在训练方面，这款新推出的芯片旨在最大限度地改进规模和速度。谷歌表示，该芯片的设计旨在将训练前沿模型所需的时间“从数月缩短至数周”。这一目标是通过提高大型集群的计算密度、内存容量和带宽来实现的，其计算性能较上一代芯片提升了近 3 倍。

现在，单个 TPU 8t 超级集群可以扩展至 9600 个芯片和 2 PB 的共享高带宽内存，芯片间带宽是上一代产品的两倍。该架构可提供 121 ExaFlops 的浮点运算性能，并使最复杂的模型可以充分利用一个庞大的内存池。

按照谷歌的说法，该系统可以在单个本地集群中实现近乎线性的扩展，最多可支持一百万个芯片。除了扩展性之外，该设计还通过 10 倍于以往的存储速度以及更高的可靠性、可用性和可维护性，最大限度地提高了系统利用率，减少了因硬件故障、网络中断或检查点重启导致的停机时间。

在推理方面，TPU 8i 芯片更注重持续负载下的响应速度和效率。谷歌指出，代理工作负载涉及长上下文、内存密集型操作以及来自不同代理的并发请求。经过优化后，该芯片通过卸载全局操作来降低延迟，借助高达 288GB 的内存提升内存带宽，将每美元性能提升了 80%。

对于现代的专家混合（MoE）模型，我们将互连（ICI）带宽提升至 19.2 Tb/s。全新的 Boardfly 架构将最大网络直径缩减了 50% 以上，旨在确保系统能够作为一个紧密协作的低延迟整体来运行。

新芯片将带来显著的提升，而谷歌 TPU 的设计理念多年来一直保持相对稳定。

初始 TPU 设计背后的核心理念至今依然成立：通过芯片、硬件、网络和软件（包括模型架构和应用需求）的定制化协同设计，显著地提升能效和绝对性能。

Hacker News 用户 burnte 也表达了同样的观点，他指出：

从键盘到芯片，谷歌的产品无所不包。经过无数次迭代之后，他们已经深谙如何将那些相互争夺资源的不同功能进行分离。

同样地，pmb 指出了谷歌 TPU 产品线的另一大优势：

在开展大型 AI 项目时，基本上只能从英伟达购买或者向谷歌租用。而谷歌能够从整个数据中心的角度来设计其芯片、引擎和系统，将某些方面进行集中管理——这是芯片供应商无法做到的。

用户 amelius 发出了不同的声音。他告诫人们，不要“在别人的王国里建造自己的城堡”，暗示从英伟达采购才是唯一真正的选择，但即便如此，也无法完全消除对供应商锁定的担忧。