感觉华为CloudMatrix 384 还是很NB的
wp7吧
全部回复
仅看楼主
level 12
最近深入研究了华为的CloudMatrix 384超节点,感觉这套方案真有点东西!从底层架构到实际应用,它完全不输英伟达的NVLink+IB网络组合,尤其在“全栈自主”和“场景适配”上,华为确实玩出了自己的特色。简单聊聊看法,欢迎华为OD的兄弟补充或者指正一下 我可能理解错的地方。
底层架构:低时延、高带宽,专为大集群优化
CloudMatrix 384的网络设计挺硬核,用的是Spine-Leaf分层架构,管理平面靠传统三层以太网,负责监控节点状态、配置下发,稳得一批。而节点间的数据互联用的是华为自研的UB(Ultra Bus)硬件级二层转发,全对等拓扑加上硬件优化,这性能直接秒杀传统IP网络的瓶颈,比英伟达的IB网络少了很多协议开销,也比NVLink更适合超大规模集群扩展。
CloudMatrix 384的交付方式也很灵活,分“云端敏捷”和“本地可控”两种模式:
云端部署:直接用华为云Stack,上传模型和数据,配上训练脚本,系统自动调度384张昇腾NPU跑分布式训练。内置的MindSpore并行引擎会根据集群拓扑优化任务分配,计算和通信还能重叠,效率拉满,操作简单得像用Rancher管容器。
本地部署:适合金融、政务这种对数据安全要求高的场景,直接用裸金属模式,Master节点跑调度脚本,手动调任务分发规则,数据完全本地化,安全无忧。形式类似 k8s master。
不只是训练:训推一体,算力全天候“榨干”
这套集群最大的亮点之一是“训推共池”。白天算力空闲时,可以切到推理模式,跑智能客服、工业质检、城市治理;晚上再切回训练模式,跑大模型训练。这种“训推一体”的设计比英伟达常见的“训推分离”更省资源,特别适合企业降本增效。
国产化硬实力:从芯片到生态,摆脱“卡脖子”
CloudMatrix 384的硬件基本全是国产:计算节点用鲲鹏930 CPU,集群管理靠华为自研的iBMC系统,主板、内存等硬件也都是国内供应链,彻底不怕“卡脖子”。虽然昇腾生态在算子丰富度和工具适配上跟CUDA还有点差距,但国内算法工程师们在加班加点补短板,MindSpore的算子库和CANN工具链都在快速迭代,生态越来越完善。
未来可期:国产AI算力的新起点
CloudMatrix 384不只是“替代GPU集群”那么简单,它给国内AI产业搭了一套“全栈自主、性能硬核、场景灵活”的算力底座。随着信创推进,这套方案在金融、医疗、工业等领域落地后,中国AI算力真的有望摆脱对英伟达Tesla GPU的依赖。感觉“算力自主可控”的那天,可能比我们想的来得更快!
硬件层面从服务器全部配件,交换机,芯片,NPU,操作系统open Euler,容器isula,容器编排CCE诸如此类一整套信息软硬件底座。让Nvidia Tesla系列的阉割算力GPU 跪求中国采购都懒得搭理他的时代指日可待。
2025年09月24日 07点09分 1
level 12
2025年09月24日 07点09分 2
level 7
说明华为的无线连接技术 比英伟达强!!等制程突破了,华为算力只会更强
2025年09月24日 08点09分 3
是oxc光交换技术,通讯领域的王牌
2025年09月24日 23点09分
@GCL_Andy 谢谢科普,怪不得任总说在光的领域 没有人比华为更强
2025年09月24日 23点09分
这个和无线没有关系的
2025年09月24日 08点09分
nv集群用的铜缆,hw用的光纤
2025年09月24日 13点09分
level 13
这个一出英伟达老黄就急了,他是个商人一直想着卖算力卡,可是高端货美国政府不让他卖,低端货我们又不要!
2025年09月24日 09点09分 4
level 16
训练还是推理?
2025年09月24日 09点09分 5
910c 搞训练的
2025年09月24日 09点09分
level 8
硬件很不错。软件生态要努力追上去
2025年09月24日 09点09分 6
level 1
有实际应用案例吗?看参数很不错啊
2025年09月24日 10点09分 7
@红颜亦梦几轮回 这东西不过是华为一家努力就可以的,国内有担当的企业还是少了一点。
2025年09月28日 01点09分
目前 我问了几个在职的华为OD 要一下信息 都没有,看来应用较少 还没有多少家做的
2025年09月24日 11点09分
@红颜亦梦几轮回 推测是没有类似NVIDIA的CUDA软件,不便于用户开发,迁移,使用等
2025年09月24日 15点09分
@suiyi520 具体不太清楚了 是有点缺陷 不过cann 好像也有些黑科技 特定场景通过一些手段也能完成训练任务
2025年09月24日 17点09分
level 6
别发ai贴。
2025年09月24日 10点09分 8
拿钱而已[捂嘴笑]
2025年09月24日 14点09分
AI润色,修改态度。减少主观情绪带来的负面争议
2025年09月24日 14点09分
level 1
华为集群差的从来不是算力,多卡训练的难度和调参以及对应的生态才是差距
2025年09月25日 07点09分 9
和鸿蒙一样,总要一步一步来的
2025年09月28日 01点09分
level 1
你是od?
2025年10月07日 06点10分 10
不是
2025年10月07日 08点10分
@红颜亦梦几轮回 那是什么
2025年10月07日 12点10分
1