吧务
level 12
hcdpz
楼主
调查华为独特的 L3 设计及其首款自主研发的核心
CHESTER LAM 2025年7月23日
华为是中国最大的科技公司之一,其企业产品涵盖从服务器到网络设备等各个方面。所有这些产品都需要先进的芯片才能保持竞争力。
华为通过其海思子公司投资开发自己的芯片,这使得华为能够根据自身需求定制芯片设计,并保护其业务免受供应链中断的影响。
鲲鹏 920 是一种基于芯片组的 CPU 设计,旨在满足各种企业应用的需求,包括云服务器、人工智能加速器和无线基站。
这里我们查看的是华为网卡中采用的 24 核鲲鹏 920 CPU 子系统。

图片来自华为研究出版物 3
特别感谢 Brutus 为此搭建了环境!
系统架构
鲲鹏 920 采用台积电的 CoWoS 封装技术,通过多个芯片实现华为海思所谓的“乐高式生产”。华为海思的芯片组策略是将等高的芯片并排放置,计算芯片位于中心,I/O 芯片位于两侧。
计算芯片被称为超级 CPU 集群(SCCLs),其芯片的顶部和底部边缘集成了 DDR4 控制器,使用了芯片的所有边缘区域用于片外接口。
SCCLs 采用台积电的 7 纳米工艺制造,包含多达 32 个 TaiShan v110 CPU 核心和 L3 缓存。一个独立的 IO 芯片使用台积电的 16 纳米节点,并连接到 PCIe、SATA 和其他低速 IO。所有芯片都位于一个 65 纳米中介层之上。
芯片间带宽能够实现高达 400 GB/s 的缓存一致性
鲲鹏 920:首款基于芯片 let 的 64 核 ARM 云服务 SoC
海思基于乐高的生产方式与英特尔的无晶圆厂策略有相似之处,后者同样强调高跨芯片带宽,但代价是更昂贵的封装技术和更紧密的芯片间距离限制。
与英特尔的 Sapphire Rapids 类似,将内存控制器放置在 CPU 芯片上,使得更小的 SKU 可以直接访问 DRAM,而无需将内存请求路由到另一个芯片。Sapphire Rapids 利用其高跨芯片带宽,使其多芯片设置在软件层面看起来像是一个整体。
L3 缓存和 DRAM 资源可以在不同芯片之间无缝共享,这与 NUMA 设置形成对比,在 NUMA 设置中,软件必须与不同的内存池进行交互。奇怪的是,我未能找到任何证据表明 Kunpeng 920 可以在多个 SCCL 之间组合 L3 和 DRAM 资源。

来自论文的图 4 展示了芯片被暴露为不同的 NUMA 节点。来自其他来源的 sample numactl 输出也显示每个芯片作为一个独立的节点
鲲鹏 920 支持使用华为“Hydra”链路的 dual 和 quad 插槽配置,这有助于进一步扩展核心数量。具有类似每个插槽核心数量的现代服务器处理器,如 Ampere Altra 和 AMD 的 Zen 2,仅扩展到 dual 插槽配置。
2025年08月14日 14点08分
1
CHESTER LAM 2025年7月23日
华为是中国最大的科技公司之一,其企业产品涵盖从服务器到网络设备等各个方面。所有这些产品都需要先进的芯片才能保持竞争力。
华为通过其海思子公司投资开发自己的芯片,这使得华为能够根据自身需求定制芯片设计,并保护其业务免受供应链中断的影响。
鲲鹏 920 是一种基于芯片组的 CPU 设计,旨在满足各种企业应用的需求,包括云服务器、人工智能加速器和无线基站。
这里我们查看的是华为网卡中采用的 24 核鲲鹏 920 CPU 子系统。

图片来自华为研究出版物 3特别感谢 Brutus 为此搭建了环境!
系统架构
鲲鹏 920 采用台积电的 CoWoS 封装技术,通过多个芯片实现华为海思所谓的“乐高式生产”。华为海思的芯片组策略是将等高的芯片并排放置,计算芯片位于中心,I/O 芯片位于两侧。
计算芯片被称为超级 CPU 集群(SCCLs),其芯片的顶部和底部边缘集成了 DDR4 控制器,使用了芯片的所有边缘区域用于片外接口。
SCCLs 采用台积电的 7 纳米工艺制造,包含多达 32 个 TaiShan v110 CPU 核心和 L3 缓存。一个独立的 IO 芯片使用台积电的 16 纳米节点,并连接到 PCIe、SATA 和其他低速 IO。所有芯片都位于一个 65 纳米中介层之上。
芯片间带宽能够实现高达 400 GB/s 的缓存一致性
鲲鹏 920:首款基于芯片 let 的 64 核 ARM 云服务 SoC
海思基于乐高的生产方式与英特尔的无晶圆厂策略有相似之处,后者同样强调高跨芯片带宽,但代价是更昂贵的封装技术和更紧密的芯片间距离限制。
与英特尔的 Sapphire Rapids 类似,将内存控制器放置在 CPU 芯片上,使得更小的 SKU 可以直接访问 DRAM,而无需将内存请求路由到另一个芯片。Sapphire Rapids 利用其高跨芯片带宽,使其多芯片设置在软件层面看起来像是一个整体。
L3 缓存和 DRAM 资源可以在不同芯片之间无缝共享,这与 NUMA 设置形成对比,在 NUMA 设置中,软件必须与不同的内存池进行交互。奇怪的是,我未能找到任何证据表明 Kunpeng 920 可以在多个 SCCL 之间组合 L3 和 DRAM 资源。

来自论文的图 4 展示了芯片被暴露为不同的 NUMA 节点。来自其他来源的 sample numactl 输出也显示每个芯片作为一个独立的节点鲲鹏 920 支持使用华为“Hydra”链路的 dual 和 quad 插槽配置,这有助于进一步扩展核心数量。具有类似每个插槽核心数量的现代服务器处理器,如 Ampere Altra 和 AMD 的 Zen 2,仅扩展到 dual 插槽配置。

























