AMD Pollara 400 在 Hot Chips 2025 的详细信息

AMD推出了一款新的AI网卡,称为AMD Pensando Pollara 400 AI NIC。这是一块新的超以太网联盟支持网卡,速度为400GbE。我们之前报道过去年AMD Pensando Pollara 400 UltraEthernet RDMA NIC的发布,但现在我们有了更多细节。

这段视频正在Hot Chips现场直播,所以请原谅错别字。

AMD Pollara 400 在 Hot Chips 2025 的详细信息

以下是NIC的概述。它看起来像是NVIDIA ConnectX-7的竞争对手,但它提供了一些不同的东西。

AMD Pollara 400 热芯片 2025 _Page_04
AMD Pollara 400 2025 热芯片

既然这是一个AI网卡,我们可以看到AMD对它的设想。虽然NVIDIA正在推广PCIe交换机,而AMD则拥抱PCIe交换机,并将GPU和Pollara 400网卡以1:1比例应用于我们最近评测过的技嘉G893-ZX1-AAX2华硕ESC A8A-E12U(本周晚些时候将在STH上评测)。

AMD Pollara 400 2025 热芯片_Page_05
AMD Pollara 400 热芯片 2025 Instinct 系统图

这是该部件的框图。值得注意的是,AMD没有PCIe交换机,而是使用P4实现可编程性。

AMD Pollara 400 2025 _Page_06
AMD Pollara 400 热芯片 2025 方块图

好了,这就是P4的架构。P4 旨在构建可编程的数据包管道。我们也看到了英特尔为谷歌设计的IPU系列,所以P4并非AMD独有的功能。

AMD Pollara 400 2025 年热芯片_Page_07
AMD Pollara 400 热芯片 2025 P4

AMD现在正在进入P4流水线组件。第一种是桌面引擎(Table Engine,简称TE)。这会生成表键并执行内存读取。

AMD Pollara 400 2025 年热芯片_Page_08
AMD Pollara 400 热芯片 2025 桌面引擎

还有匹配处理单元(MPU)。在网络中,通常你会根据数据包中匹配的模式来选择流量流。

AMD Pollara 400 热芯片 2025 _Page_09
AMD Pollara 400 热芯片 2025 MPU

现在我们回到之前看到的P4架构图。

AMD Pollara 400 2025 热芯片_Page_10
AMD Pollara 400 热芯片 2025 P4 架构 2

比如虚拟地址到物理地址的转换,也有增强功能。

AMD Pollara 400 2025 _Page_11
AMD Pollara 400 热芯片 2025 va2pa

还有原子存储作。

AMD Pollara 400 热芯片 2025 _Page_12
AMD Pollara 400 热芯片 2025 原子运算

AMD还具备流水线缓存一致性。

AMD Pollara 400 2025 年热芯片_Page_13
AMD Pollara 400 热芯片 2025 缓存

在东西向的AI扩展网络中,你会看到许多挑战。

AMD Pollara 400 2025 _Page_14
AMD Pollara 400 热芯片 2025 AI 扩展挑战

AMD正在展示网络对系统性能的直接影响,这在网卡与GPU比例为1:1时非常重要,而网络对价格更高的GPU性能影响很大。

AMD Pollara 400 2025 _Page_15
AMD Pollara 400 热芯片 2025 后端 AI 网络

作为人工智能网络的一部分,利用率可能很高,这推动了对更快交换机和网卡的需求。

AMD Pollara 400 热芯片 2025 _Page_16
AMD Pollara 400 热芯片 2025 网络利用率

出现问题的链路会拖慢系统。因此,喷涂和重新订购的包装变得越来越普遍。

AMD Pollara 400 2025 年热芯片_Page_17
AMD Pollara 400 热芯片 2025 封装喷雾

在网络和节点层面,可能会出现拥塞。AMD有拥塞控制机制。

AMD Pollara 400 2025 年热芯片_Page_18
AMD Pollara 400 热芯片 2025 拥塞控制

丢包可能发生在大型复杂的AI网络中,你不希望这影响培训工作。

AMD Pollara 400 2025 _Page_19
AMD Pollara 400 热芯片 2025 数据包丢失

因此,Ultra Ethernet Consortium正通过使用以太网来应对这些挑战。UEC不仅围绕网卡,还对新型交换芯片有重大影响,帮助构建解决这些问题的生态系统。

AMD Pollara 400 热芯片 2025 _Page_20
AMD Pollara 400 热芯片 2025 超以太网联盟

AMD表示其网卡已支持UEC支持。

AMD Pollara 400 2025 _Page_21
AMD Pollara 400 热芯片 2025 UEC 就绪

UEC有多路径技术帮助解决之前提到的许多挑战。

AMD Pollara 400 热芯片 2025 _Page_22
AMD Pollara 400 热芯片 2025 UEC 多路径

以下是发射端路径熵值的工作原理。

AMD Pollara 400 2025 _Page_23
AMD Pollara 400 热芯片 2025 Entropy 网卡传输

接收端的效果如下。

AMD Pollara 400 2025 年热芯片_Page_24
AMD Pollara 400 热芯片 2025 Entropy 网卡接收

UEC也有拥堵控制功能。

AMD Pollara 400 2025 _Page_25
AMD Pollara 400 热芯片 2025 UEC 拥塞控制

这是UEC拥堵控制的NIC发射端。

AMD Pollara 400 2025 _Page_26
AMD Pollara 400 热芯片 2025 UEC 拥塞控制发射

这是UEC拥塞控制的NIC接收端。

AMD Pollara 400 热芯片 2025 _Page_27
AMD Pollara 400 热芯片 2025 UEC 拥塞控制接收器

还有选择性Ack(SACK)重传功能。

AMD Pollara 400 热芯片 2025 _Page_28
AMD Pollara 400 热芯片 2025 UEC SACK

这是NIC接收端的UEC SACK

AMD Pollara 400 2025 _Page_29
AMD Pollara 400 热芯片 2025 UEC SACK 接收

以下是请求方的部分:

AMD Pollara 400 2025 年热芯片_Page_30
AMD Pollara 400 热芯片 2025 UEC SACK 请求器

AMD还表示,RCCL(AMD的NVIDIA NCCL对应平台)配备支持UEC的Pollara 400网卡可以提升性能。

AMD Pollara 400 热芯片 2025 _Page_31
AMD Pollara 400 热芯片 2025 性能

这是Pollara 400 AI NIC的总结。

AMD Pollara 400 热芯片 2025 _Page_32
AMD Pollara 400 2025 热芯片总结

总结来说,宇宙联盟(UEC)很强,波拉拉用的是P4。

结语

总体来说,这是一个令人兴奋的网卡。我们最近一直在处理很多 ConnectX-7 400GbE 卡,因为我们一直在构建这个 Keysight CyPerf 流量发生器。希望我们也能在网卡评测中使用它。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部