leyu乐鱼-谷歌部署新的Axion CPU和第七代Ironwood TPU
发布时间:2025-11-30 leyu
谷歌部署新的Axion CPU和第七代Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e
?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood TPU —— 训练和推理 Pod 击败 Nvidia GB300 并塑造“AI 超级计算机”模型 作者: 时间:2025-11-07 来源:
加入技术交流群
扫码加入和技术大咖面对面交流海量资料库查询
今天,GoogleCloud 推出了新的面向 AI 的实例,由自己的 Axion CPU 和 Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood TPU 提供支持。新实例旨在训练和大规模 AI 模型的低延迟推理,这些新实例的主要特点是 AI 模型的高效扩展,这得益于 Google 基于 Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood 的系统的非常大的扩展世界规模。
数百万个用于训练和推理的 Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood TPU。Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood是 Google 的 7th一代张量处理单元 (TPU),可提供 4,614 FP8 TFLOPS 的性能,配备 192 GB HBM3E 内存,提供高达 7.37 TB/s 的带宽。Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood 吊舱可扩展至 9,216 个 AI 加速器,为训练和推理提供总共 42.5 FP8 ExaFLOPS,远远超过了 Nvidia GB300 NVL72 系统的FP8 能力,即 0.36 ExaFLOPS。该吊舱使用专有的 9.6 Tb/s 芯片间互连网络进行互连,总共携带约 1.77 PB 的 HBM3E 内存,再次超过了 Nvidia 竞争平台所能提供的功能。
谷歌尚未公布其 Axion CPU 的完整芯片规格:没有确认每个芯片的核心数量(超过 96 个 vCPU 和 C768A Metal 实例的 5 GB DDR4 内存),没有公开的时钟速度,也没有公开的工艺节点该部件的详细信息。我们所知道的是,Axion 是围绕 Arm Neoverse v2 平台构建的,与现代 x50 CPU 相比,其设计旨在提供高达 60% 的性能提升和高达 86% 的能效,以及比“当今云中最快的基于 Arm 的通用实例”高出 30% 的性能。有报道称,该 CPU 每核提供 2 MB 的私有 L2 缓存、80 MB 的 L3 缓存、支持 DDR5-5600 MT/s 内存以及节点的统一内存访问 (UMA)。
运行 Google Axion CPU 和 Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood CPU 的服务器配备了该公司定制的 Titanium 品牌控制器,可从主机 CPU 卸载网络、安全和I/O 存储处理,从而实现更好的管理,从而提高性能。
一般来说,Axion CPU 可以为 AI 服务器和通用服务器提供服务,以执行各种任务。目前,谷歌提供三种 Axion 配置:C4A、N4A 和 C4A 金属。
C4A 是 Google Axion 驱动的实例系列中的第一个也是主要产品,也是当今唯一普遍可用的产品。它提供多达 72 个 vCPU、576 GB DDR5 内存和 100 Gbps 网络,搭配高达 6 TB 本地容量的 Titanium SSD 存储。该实例经过优化,可在各种应用程序中实现持续的高性能。
接下来是 N4A 实例,它也针对数据处理、Web 服务和开发环境等一般工作负载,但它可扩展到 64 个 vCPU、512 GB DDR5 RAM 和 50 Gbps 网络,使其成为更实惠的产品。
另一个预览模型是 C4A Metal,这是一种裸机配置,可能直接向客户公开完整的 Axion 硬件堆栈:多达 96 个 vCPU、768 GB DDR5 内存和 100 Gbps 网络。该实例适用于专用或许可证受限的应用程序或 Arm 原生开发。
完整的定制芯片产品组合这些新产品建立在谷歌十年来定制芯片开发的基础上,从最初的 TPU开始,一直延续到YouTube 的 VCU、Tensor 移动处理器和 Titanium 基础设施。Axion CPU——谷歌首款基于 Arm 的通用服务器处理器——完善了该公司的定制芯片产品组合,而 Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood TPU 为与市场上最好的人工智能加速器的竞争奠定了基础。
-leyu乐鱼





