level 12
红颜亦梦几轮回
楼主
最近深入研究了华为的CloudMatrix 384超节点,感觉这套方案真有点东西!从底层架构到实际应用,它完全不输英伟达的NVLink+IB网络组合,尤其在“全栈自主”和“场景适配”上,华为确实玩出了自己的特色。简单聊聊看法,欢迎华为OD的兄弟补充或者指正一下 我可能理解错的地方。
底层架构:低时延、高带宽,专为大集群优化
CloudMatrix 384的网络设计挺硬核,用的是Spine-Leaf分层架构,管理平面靠传统三层以太网,负责监控节点状态、配置下发,稳得一批。而节点间的数据互联用的是华为自研的UB(Ultra Bus)硬件级二层转发,全对等拓扑加上硬件优化,这性能直接秒杀传统IP网络的瓶颈,比英伟达的IB网络少了很多协议开销,也比NVLink更适合超大规模集群扩展。
CloudMatrix 384的交付方式也很灵活,分“云端敏捷”和“本地可控”两种模式:
云端部署:直接用华为云Stack,上传模型和数据,配上训练脚本,系统自动调度384张昇腾NPU跑分布式训练。内置的MindSpore并行引擎会根据集群拓扑优化任务分配,计算和通信还能重叠,效率拉满,操作简单得像用Rancher管容器。
本地部署:适合金融、政务这种对数据安全要求高的场景,直接用裸金属模式,Master节点跑调度脚本,手动调任务分发规则,数据完全本地化,安全无忧。形式类似 k8s master。
不只是训练:训推一体,算力全天候“榨干”
这套集群最大的亮点之一是“训推共池”。白天算力空闲时,可以切到推理模式,跑智能客服、工业质检、城市治理;晚上再切回训练模式,跑大模型训练。这种“训推一体”的设计比英伟达常见的“训推分离”更省资源,特别适合企业降本增效。
国产化硬实力:从芯片到生态,摆脱“卡脖子”
CloudMatrix 384的硬件基本全是国产:计算节点用鲲鹏930 CPU,集群管理靠华为自研的iBMC系统,主板、内存等硬件也都是国内供应链,彻底不怕“卡脖子”。虽然昇腾生态在算子丰富度和工具适配上跟CUDA还有点差距,但国内算法工程师们在加班加点补短板,MindSpore的算子库和CANN工具链都在快速迭代,生态越来越完善。
未来可期:国产AI算力的新起点
CloudMatrix 384不只是“替代GPU集群”那么简单,它给国内AI产业搭了一套“全栈自主、性能硬核、场景灵活”的算力底座。随着信创推进,这套方案在金融、医疗、工业等领域落地后,中国AI算力真的有望摆脱对英伟达Tesla GPU的依赖。感觉“算力自主可控”的那天,可能比我们想的来得更快!
硬件层面从服务器全部配件,交换机,芯片,NPU,操作系统open Euler,容器isula,容器编排CCE诸如此类一整套信息软硬件底座。让Nvidia Tesla系列的阉割算力GPU 跪求中国采购都懒得搭理他的时代指日可待。

2025年09月24日 07点09分
1
底层架构:低时延、高带宽,专为大集群优化
CloudMatrix 384的网络设计挺硬核,用的是Spine-Leaf分层架构,管理平面靠传统三层以太网,负责监控节点状态、配置下发,稳得一批。而节点间的数据互联用的是华为自研的UB(Ultra Bus)硬件级二层转发,全对等拓扑加上硬件优化,这性能直接秒杀传统IP网络的瓶颈,比英伟达的IB网络少了很多协议开销,也比NVLink更适合超大规模集群扩展。
CloudMatrix 384的交付方式也很灵活,分“云端敏捷”和“本地可控”两种模式:
云端部署:直接用华为云Stack,上传模型和数据,配上训练脚本,系统自动调度384张昇腾NPU跑分布式训练。内置的MindSpore并行引擎会根据集群拓扑优化任务分配,计算和通信还能重叠,效率拉满,操作简单得像用Rancher管容器。
本地部署:适合金融、政务这种对数据安全要求高的场景,直接用裸金属模式,Master节点跑调度脚本,手动调任务分发规则,数据完全本地化,安全无忧。形式类似 k8s master。
不只是训练:训推一体,算力全天候“榨干”
这套集群最大的亮点之一是“训推共池”。白天算力空闲时,可以切到推理模式,跑智能客服、工业质检、城市治理;晚上再切回训练模式,跑大模型训练。这种“训推一体”的设计比英伟达常见的“训推分离”更省资源,特别适合企业降本增效。
国产化硬实力:从芯片到生态,摆脱“卡脖子”
CloudMatrix 384的硬件基本全是国产:计算节点用鲲鹏930 CPU,集群管理靠华为自研的iBMC系统,主板、内存等硬件也都是国内供应链,彻底不怕“卡脖子”。虽然昇腾生态在算子丰富度和工具适配上跟CUDA还有点差距,但国内算法工程师们在加班加点补短板,MindSpore的算子库和CANN工具链都在快速迭代,生态越来越完善。
未来可期:国产AI算力的新起点
CloudMatrix 384不只是“替代GPU集群”那么简单,它给国内AI产业搭了一套“全栈自主、性能硬核、场景灵活”的算力底座。随着信创推进,这套方案在金融、医疗、工业等领域落地后,中国AI算力真的有望摆脱对英伟达Tesla GPU的依赖。感觉“算力自主可控”的那天,可能比我们想的来得更快!
硬件层面从服务器全部配件,交换机,芯片,NPU,操作系统open Euler,容器isula,容器编排CCE诸如此类一整套信息软硬件底座。让Nvidia Tesla系列的阉割算力GPU 跪求中国采购都懒得搭理他的时代指日可待。

