AMD RDNA4 GPU可以解决显存带宽不足的问题
ati吧
全部回复
仅看楼主
level 7
AMD从RDNA2 GPU开始引入IF缓存用于提高有效显存带宽,IF缓存越大,IF缓存带宽越高,由于IF缓存命中率会随着IF缓存增加而增加,所以大缓存会有很高的有效带宽。高分辨率会导致IF缓存命中率降低。
RDNA3 GPU均有显存带宽不足的问题:
RDNA3的MCD中集成了第二代IFC,理论上带宽很高,但因为NAVI31和NAVI32由于chiplet封装有问题,导致实际显存带宽受限于chiplet d2d的带宽,这在RX7800XT和7900GRE上很明显,IFC相对RDNA2反而倒退了。
NAVI33就是把NAVI23的计算单元替换成RDNA3架构,工艺提升到TSMC N6,其他的都不变,IF缓存还是第一代。
RDNA4这下是单芯片设计了,如果用第二代IFC,就会有很高的有效显存带宽。
2024年04月24日 05点04分 1
level 7
NAVI31和NAVI32的廉价chiplet封装可能是导致其显存带宽不足的原因。
die to die走pcb板,像桌面端CPU那样,带宽被限制的死死的,ZEN4和IOD的单个GMI总线(桌面端是1个GMI,EYPC是2个GMI)带宽最高也不超过100G/s。
NAVI31和NAVI32用的是廉价的chiplet封装,走的是金属互联,如果封装没有搞好,寄生电容、d2d连接之间的干扰会导致实际带宽出现很严重的降低,但比PCB板要好多了。
走cowos那种高级封装,各种非理想因素少很多,带宽很高。
当然单芯片设计,信号直接在芯片内部传输,带宽是最高的,各种干扰、串扰也是最小的。
2024年04月24日 07点04分 3
level 1
cowos成本还是太高了,而且就两个大die互联才有优势,RDNA3的RDL互联上挺好的 GCD和MCD单个互联带宽都有900GB/S已经是足够用了,RDNA3的问题更多是GCD上的,双发射FP32模式实际表现有问题,而且TEX ROP这些的规模提升不大,游戏表现提升和RDNA2相比不大也主要是因为这个。
实际上对于MCD的问题我认为更大,MCD的面积是很小的,作为显存和GCD之间的中转,最大问题是片上缓存的容量太小,只有16MB/die,如果增加到24 32MB面积和成本提升都不大,但是能改善不小的问题,甚至于实现shader重排这样的功能,对于GPU的ALU利用率的提升是巨大的。
RDNA3还有一个问题就是规模太小,GCD的面积才300mm2左右,明明可以做到500mm2左右的,规模可以提升个75—80%左右,那就从原来的6144sp提升到10752—12280sp之间,在规模上就能比AD102多20%左右,实现对NV的反超。当然AMD是一以贯之的扣门。
RDNA4就无所谓了 上MCM两GCD互联提升规模,性能表现看的过去就完事了,反正AMD自己也没啥心气的。
2024年04月24日 08点04分 4
问题是500mm2的巨无霸做出来卖给谁去?没有CDUA生态,你指望臭打游戏的花1500甚至2000美金买你A卡?[滑稽]
2024年04月24日 10点04分
@舰队司令官0 本身AMD也是扣门的,不愿意做大die。 不过臭打游戏的都是剑冢,有几个钱啊,[滑稽]所以无所谓了,基本上DIY死水一摊,全在摆烂了,连带X86的OEM也是摆烂。
2024年04月24日 15点04分
@风舞雩咏而归 实质上是扣门嘛,N6工艺下 基本上1mm2面积2MB的cache 再多16MB其实也就大8mm2不到,算法可以靠驱动固件什么的去改 但是物理容量不行,说到底是扣门 不然GCD面积上到500 真能强过4090的
2024年04月29日 03点04分
@风舞雩咏而归 其实就是前端设计有问题加上没支持好FMAX2 不过主要是AMD摆烂 RDNA3基本上没啥对刚的动作
2024年04月29日 12点04分
level 11
为什么高分辨率会影响if缓存命中率
2024年04月24日 13点04分 5
因為分辨率越高 shader處理過程的buffer就越大 繼而排擠其他部份 從而表現出命中率下降 但是對於整體來說 整體利用率會上升(直到被限制為止) 這取決於訪問模式
2024年04月24日 14点04分
越高級的部份 也就是緩存遠快於內存 無論是在延遲還是帶寬上 buffer越大相當於單位時間內有更多空間被佔用走 沒辦法挪作他用 因為訪問特性問題處於熱點很快就要用 你換出去又換回來只是浪費更多而已
2024年04月24日 14点04分
缓存容量不够了呗
2024年04月24日 13点04分
@舰队司令官0 缓存容量超过某个阈值,再堆就提升不大了,这代96MB在4K下是够用的,命中率不高是因为缓存算法不行。
2024年04月24日 14点04分
level 7
RDNA4 GPU预测
2024年04月24日 15点04分 6
level 7
RDNA2、RDNA3、RDNA4 GPU的显存带宽,数据来源于AMD官网
其中NAVI32虽然官网宣称带宽很高,但实际上NAVI32的IPC低于NAVI21,因此可以推测NAVI32的实际显存带宽低于NAVI21,原因可能是chiplet封装
NAVI48的实际显存带宽应该就能达到NAVI32宣称的水平了
2024年04月24日 15点04分 7
你这直接把Navi32的有效带宽套到Navi48也挺搞笑的,建议去看看RDNA4对缓存控制位的改进。
2024年04月24日 16点04分
官网标注的有效带宽没有问题,带宽瓶颈的依据是游戏性能不随频率提升而线性增长,你这些完全都是脑补,而且官网标注的频率都是前端频率,而不是着色器频率。
2024年04月24日 16点04分
AMD的官网什么时候公布RDNA4的显存带宽了?
2024年04月24日 16点04分
@Aqvjrm 老哥,rdna4值得等吗,现在7900xt 4773
2024年10月15日 06点10分
level 1
RNDA3的问题是结温高,显存温度高,而不是带宽问题,带宽你可以设置512bit,36gb就够
2024年04月26日 02点04分 9
那会不会是因为GPU和MCD的D2D连接结温度高,导致D2D连接降速,导致实际显存带宽不高?
2024年04月26日 03点04分
level 7
这是amd的宣传图,说不上实际能不能达到这个速度
2024年04月26日 03点04分 10
速度和命中率没有关系,hbm2的gcn因为越高压力就是乏力,性能开始折损
2024年04月29日 12点04分
level 1
从微星的板卡设计我猜测,本来微星是准备给AMD这一代上很好的用料超频干烂4080,摸4090屁股的,芯片理论数据很好,但是加上mcd的es送到了工厂里,才知道原来是拉了坨大的,pcb已经定型号了没办法,所以给了个上代6900xt的一模一样的散热器打发了事儿,这是唯一一个pcb上用了钽电容的型号,还有就是微星的7900xt,7800xt,7700xt不见踪影,显然知道AMD是什么货色了。还有是华硕的三8pin tuf7900xtx 那么恐怖的散热模组,结果呢,430w!xtx的多芯片设计的愚蠢可见一斑。
2024年04月29日 12点04分 11
然而微星一开始给40系的也都是上一代的套皮,你是怎么得出原本有新的模具的结论的?
2024年04月29日 13点04分
@Aqvjrm 很简单,为什么pcb设计和散热是割裂的,而且只有xtx一张卡有的买
2024年04月29日 13点04分
@Aqvjrm 而且语文这么差吗,我说的是xtx本来各家准备是给AMD旗舰上豪华用料,就是猜测厂家们确实信了一部分,就说公版,他的供电也不差啊,结果……
2024年04月29日 13点04分
@Aqvjrm 回复 Alderlake :40系套皮说明msi想赚大钱呗,这段时间的微星确实也是以缩水加丐“出名”,这不反而更加是衬托出,它用钽电容的离谱吗,就算是超白金最后也不是停产了均热板版本,其他家也是公版小改,唯一亮点就是有加保险丝的。
2024年04月29日 13点04分
level 1
你们自习看RDNA的部分这缓存站的面积也太大了,往后延续的话RDNA3起码也是不会看缓存的,不然会导致很多问题。
最大一个问题是这么多缓存对PPAC影响很大,而且rdna的WGP SP规模也不大整这么多缓存干嘛。。第二张图是摩尔的S30,即使对BXT乱改一通,ALU集群的FP32规模都砍半了,那也没有那么多缓存需求阿 AMD这够怪的,搞不懂整那么多缓存干嘛,而且实际表现上还烂了(指rdna3)
2024年04月30日 03点04分 12
哪个是RDNA3的缓存啊,看不太懂哎。他们的意思是RDNA3的缓存算法不行所以不太够用,等效容量在N的60~72兆的L2缓存之间
2024年04月30日 09点04分
那你怎么不看看40系加了多少缓存?
2024年04月30日 10点04分
@Aqvjrm 40系是因为规模太大,而且不愿意加显存位宽,再加上要支持shader重排这个技术去提高ALU利用率,才上大L2的。
2024年04月30日 13点04分
@Aqvjrm 我难绷的是RDNA架构WGP里的CU给的那么大的缓存 但是每个CU的ALU规模太少 才64FP32,给那么多缓存基本上没啥用,反过来影响PPAC,不懂就多想多学,牛头不对马嘴。
2024年04月30日 13点04分
level 7
目前5600xt挺爽的,功耗低,战三年换6600xt
2024年04月30日 13点04分 13
level 1
一直搞不懂无限缓存这个概念,到底能够提升百分多少带宽。后面不说没有软件针对优化干脆取消了。
2024年05月08日 07点05分 14
level 9
rdna3的本质问题还是不舍得堆料&过于普信,正常chiplet技术要用也应该局限于384bit的顶级显卡,256bit及以下完全可以一个die搞定
2024年05月22日 08点05分 15
level 9
另外这次navi31/32根本没加分区隔断导致上不了高频,而navi33的规模太小了(好吧,6nm也不能指望多大的规模)
2024年05月22日 08点05分 16
1