AMD RDNA3/4两代 WMMA差异
amd吧
全部回复
仅看楼主
level 1
少师夜雨 楼主
最近FSR4下放相关的事情,很多相关文章中提到了个WMMA指令集,有一些人就对此很好奇,WMMA到底是个啥,干嘛用的呢?RDNA3和RDNA4的WMMA有什么区别呢?我在这里尽量解释清楚。
WMMA(Wave Matrix Multiply-Accumulate,波矩阵乘累加)是AMD RDNA架构面向AI推理、通用矩阵运算设计的核心向量加速指令,依托GPU的VALU(向量算术逻辑单元)执行16x16x16尺寸的C=A*B+D矩阵计算,对应WMMA指令:V_WMMA_F16_16X16X16_F16。不过虽然二者的指令格式类似,但RDNA3和RDNA4在硬件实现上不太一样,下面我继续讲解一下:
RDNA3算是AMD首个支持WMMA指令的消费级架构(计算卡很早,在CDNA1就有相关设计了),硬件是直接复用现有VALU点积(V_DOT指令)流水线的设计,没有独立矩阵运算硬件单元。也没办法单周期完成矩阵运算,会在硬件内部拆解迭代执行多条V_DOT点积指令,通过多个周期累加,最终输出矩阵结果,RDNA3的WMMA算力也等同于V_DOT。由于RDNA3复用DOT这也导致RDNA3在执行DOT指令时WMMA会被阻塞,需要手动插入V_NOP来避免数据冒险或者硬件假死的情况,猜测是由于端侧AI的飞速发展外加RDNA3也有点赶鸭子上架的意思,所以AMD在RDNA3 GPU上匆忙加入了WMMA支持。
RDNA4就不一样了,RDNA4的WMMA实现舍弃DOT指令复用方案,在原生VALU单元内部集成了矩阵乘加功能,独立的指令发射、数据搬运、结果累加流水线,不再像RDNA3那样拆解为DOT指令执行;增加了一些新的数据类型支持以及结构化稀疏矩阵加速(V_SWMMA指令);也拥有专属的数据冒险(Hazard)规则,于是乎RDNA4 WMMA吞吐量、延迟相较RDNA3实现大幅优化,以及RDNA4 WMMA算力不能再直接套用VALU/DOT指令了,比较可惜的是没有沿用CDNA的设计,CDNA的MFMA是完全独立设计以及独立寄存器配置,RDNA4目前还是以向量单元为基础实现,并与VALU共用vGPR。
当你阅读到这里,你大概已经了解了WMMA作用以及实现,但你可能心中会有个疑惑:“那RDNA2和RDNA3怎么加速FSR4呢?”实际上,根据目前AMD泄漏的FSR4工作流来看,FSR4其实支持DOT硬件加速(好气,链接发不出来),所以即使不具备WMMA加速,但是硬件本身图灵完备,运行起来是没什么问题的,差异主要体现在效率上,所以没有什么可担心的了。
码了好多字,蹲几天看看这个帖子有没有人看吧,看的人多的话,也许我会抽点时间介绍一下隔壁老黄的Tensor Core体系(Tensor Core逆向难度有点大,会花相当长的时间),嗯就这样,结束。
参考:
AMD RDNA3 Instruction Set Architecture
AMD RDNA4 Instruction Set Architecture
FSR 4 神经网络模型架构深度分析 - Losuffi Blog
2026年05月26日 11点05分 1
level 1
这是真的技术贴[真棒][真棒]
2026年05月26日 15点05分 3
level 12
那是不是7月份官方的fsr4,在rdna3显卡上的执行效率和目前的泄露版4.0.2没啥区别是吗?并不会因为能用到wmma而提升很多?
2026年05月26日 15点05分 4
@少师夜雨 目前来看是,也许会优化一下vGPR开销
2026年05月26日 15点05分
那就指望fsr4.1图像质量上比4.0.2有所进步了。7000跑目前泄露版fsr4性能损失不小,性能档跟fsr3质量档帧数差不多
2026年05月26日 15点05分
level 11
[大拇指]
2026年05月26日 15点05分 5
level 12
想知道rtx3000系显卡在不支持fp8前提下,怎么运行dlss4.5的?也是用int8做的?等于老黄也做了两套?
2026年05月26日 15点05分 6
我看了一下ptx isa guide,然后我手上正好有30系卡,在sm80或者更早的GPU上,计算一个fp8的矩阵,编译器会把fp8显式转换成fp16然后通过mma指令加载进Tensor Core内计算,这种DLSS技术对于老黄来说肯定不会做两套适配的。
2026年05月26日 16点05分
@tenmiddle 这用fp16单元当fp8用就行了,大材小用好不容易吗,就是吞吐量只有专门fp8单元的一半
2026年05月27日 01点05分
level 7
专业
2026年05月26日 18点05分 7
level 5
技术贴点个赞
2026年05月27日 01点05分 8
level 13
好贴,顶一下
2026年05月27日 06点05分 9
level 14
好干的货 点赞
2026年05月27日 06点05分 10
level 12
好贴
2026年05月27日 10点05分 11
吧务
level 13
[真棒]好贴
2026年05月27日 10点05分 12
level 11
太专业了,看不懂
2026年05月27日 11点05分 13
level 9
感谢大佬科普
2026年05月29日 05点05分 14
level 16
[真棒]
2026年05月30日 05点05分 15
level 15
有没有评估过RDNA4沿用CDNA的完全独立设计需要额外吃每个WGP/CU多少面积[汗]另外发不出来的链接私我试试咋个设法发出来
2026年05月30日 15点05分 16
链接中间加点表情什么的就能发了,面积这个没探究过,但应该不会很夸张,至少CDNA上没有很夸张的面积增长[滑稽]
2026年05月31日 02点05分
1 2 尾页