苗猫身
苗猫身
关注数: 8
粉丝数: 95
发帖数: 8,960
关注贴吧数: 19
NOVA LAKE 潜力还不小 如题了 我大胆猜测,P核采用模块快设计,而且最近INTEL的专利中爆出类推土机的架构,但实际上他可能是为AVX1024的到来做铺垫,再往激进点的方向想,如果纯P核模块能以模块为单位扩展SMT4的话,那NOVA LAKE 16C P核 追平 ZEN4 16C是有希望的(模块为单位只有SMT2的情况下,也就跟ZEN4 12C差不多) 至于E核方面,我觉得INTEL会更偏向于当E核需要使用AVX1024指令时,单个核能调用四个FPU(如无意外,E核是一个模块内依然是4C) 如果ZEN6对比ZEN5只是有规模数量的提升的话,那高频的24C2LP 52T 也许就只能跟 频率稍低的16P32E4LE 52T 打个平手了(游戏性能也许前者比后者好)
问大家一个问题,MI300A和双路AI MAX 395谁会更强些 如题了, 单颗MI300A的参数是228CU的CDNA2+24C的ZEN4 单颗AI MAX 395的参数是40CU的RDNA3.5+16C的ZEN5 + 32AIU的XDNA2(假设两颗AI MAX也像双路EPYC那样可以开PCIE进行互联)
盲猜MI400系列的部分规格 400A:4个3072SP的UDNA+4个32C的ZEN6C+192G的HBM4 400C:8个32C的ZEN6C+128G的HBM4 400X:8个3072SP的UDNA+256G的HBM4
把两个新闻放一起 都是转自某网站的信息,如无意外的话,日后的AMD和INTEL甚至英伟达都可能把芯片彻底拆碎成多个部分在多个地方流片,这样某国的算力限制令和禁令都会失效
我猜顶格ZEN6型号的IOD可能会是这样的 如题了 我觉得一个CPU里面有4个IOD,每个IOD里面可能拥有四种PCIE协议,其中 对外的:合计128条5.0是对外接PCIE插槽的、合计64条6.0是两块CPU的专用通道 对内的:合计32条7.0是用于IOD与IOD之间的专用通道,最后32条8.0是CPU专用的 还有就是每个IOD自带四通道的问题,如果插的是MCRDIMM的话(2并1),站在物理和理论角度说,16通道内存只需要插8个插槽就可以实现了。
既然广州地铁25号线是远期规划,某些站点可以改一下 1、建议西面延长到佛山的石龙南路,东面延长到东莞的麻涌站 2、放弃凤凰新村站(这个站留给28号线用既佛穗莞城际用,反正同福西站用不了)和南田路 3、新增金沙路站、宝业路(换乘24号)和江南西站(换乘2号)
对于AM5新主板的一个推测 如题了,我个人觉得新主板可能会推出CAMM内存接口,插128BIT位宽的DDR5内存(但主板只有一个这样的位置),然后让用家购买走16X PCIE通道的CXL扩展卡(就插现在离CPU最近的16X PCIE接口上,以后扩展内存都往这里加了)
大家觉得ZEN6这代会不会真全线大小核了 我觉得桌面端里 主流:2个12C的ZEN6 CCD加一个内含8C+64AIU 的IO(8C是ZEN5C。NPU是XDNA3),支持双通道的内存 高端:16个12C的ZEN6 CCD加一个内涵32C+256AIU的IO(该IO是四个主流IO用COWOS封装在中介层上并联出来的大IO),支持8到12通道的内存 超高端:8个32C的ZEN6C CCD加一个内涵32C+256AIU的IO(该IO是四个主流IO用COWOS封装在中介层上并联出来的大IO),支持完整16通道的内存
CAMM和CXL的DDR6大概规格,我猜猜看 从这三张图的对比中可以看出位宽只能决定延时高不高 同通道数量下,8*16BIT的MAX 395凭借着较高的内存频率,其速率比8*32BIT的7980X快了27% 同实际位宽与内存频率下,8*16BIT的MAX 395凭借着翻倍的通道数,其速率比4*32BIT的9950X快123% 再看看下面这三张图同频率同通道同数下,4*16BIT的HX370的内存速率比4*32BIT的7950X快13% 所以我可以肯定 1、DDR6在不增加总位宽的情况下,4*16BIT的DDR6内存必须要跑上16G或者以上才能降低延迟到现在DDR5的水平(如果内存不躺平散热是个大问题) 2、DDR6在增加总位宽的情况下,4*32BIT的DDR6原则上跟现在的DDR5双通道差不多 3、如果采用CAMM接口,由于接口可以延伸两条独立通道,所以DDR6的实际通道数会达到8条(我更倾向于这种内存的底部全是触点,面部仅有8颗内存颗粒) 4、CXL内存可能会在里面集成MCR模块和好几个IO模块(IO里集成PCIE用于跟CPU上的PCIE和南桥上的PCIE直接沟通,像极了两个霄龙用PCIE做沟通那样),他会长得像3.5寸的HD硬盘
对AMD和英特尔而言,有些话不知道当讲不当讲 我用B650主板,简单模拟了一下,看来以后内存也会像硬盘一样分快慢速了 1、先说CAMM,话说一条4*8规格的DDR5 CAMM实际上占据5个DIMM插槽位置(但底部仅有一半是触点,位宽128BIT;如果底下全做触点位宽可以达到256BIT) 2、再说AM5和DDR6标准,假设说DDR6标准就是4*DDR5的话,原则上AM5接口和IO里的内存控制器也可以不用换 3、再说CXL内存,话说16X的E3接口长度仅有16X PCIE接口的2/3而已(CXL内存拉延长线放硬盘位上也不是不可以) 4、再说ZEN6,如果对手52C的话,假设ZEN6的CCD为12C的情况下,AM5型号可以做48C(IO里的不是GPU而是NPU的话,在N4工艺的加持下这个IO可以变得更窄长,同样的面积下他可以多放两个内存控制器和一个16X PCIE控制器)
英特尔开窍了,那ZEN的32C应该会下放主流了吧
我猜DDR6内存规格就是DDR5*4,并且ZEN6来的时候他也来了 如题了,话说DDR6自带四通道,如果内个通道上都是一个小型DDR5单元的话,那DDR6就是8*8BIT+8*32BIT的位宽了(反正DDR6内存是躺平的CAMM内存),一条跑12.8G频率的DDR6内存要是256位宽的话,保守也可以跑360G/S,那ZEN6换接口比不换接口更有优势(不仅可以拉四个CCD,而且IO里集成48~64个AIU貌似也不成问题 )
如果NAVI41和42还在的话 如题了,假设41的规模是128CU、42的规模是96CU 其中NAVI42依然用256BIT的GDDR6而NAVI41用265BIT的GDDR7 那这NAVI41与RTX5090比的话,谁会占优
如果RX7900XTX是APU显卡结果会如何? 如题了,NAVI32 GCD+ZEN4C CCD*2+8MCD(512BIT的位宽),供电3*8BIN,不知道这样的显卡插AMD平台上开SAM会不会牛逼一点
话说日后的AMD主流平台会不会长这样 如题了 1、主流CPU型号自带支持4*64BIT的内存控制器,并推出集成MCR模块的CAMM内存(原则上CPU每个通道只认一个MCR,而单个MCR最高裂变出8*2BIT+8*8BIT) 2、引入大小核概念,APU显卡化(CPU用小核、GPU规模相当于旗舰的1/4,并且预留CAMM让用家自己决定上多大的内存),而主CPU于副APU既然可以透过SAM技术访问对方的内存池 3、引入CXL内存,如果只是对容量有需求的话,在16X PCIE上加就好
对CPU和GPU而言,如果CAMM内存里有MCR概念器的话 如题了,有了MCR缓冲器在内存里的话,以CPU只有一个128BIT内存控制器为例: 内存原则上128BIT可以:128*1BIT、64*2BIT、32*4BIT、16*8BIT、8*16BIT、4*32BIT、2*64BIT、1*128BIT,剩下的就是频率因素了 例如频率64G、位宽128BIT(32*4BIT)的内存可以提供伦理上1T/S的速度 至于容量问题我觉得那是鱼于熊掌的问题,CAMM内存掌管速度(要是128BIT的CAMM是40*40MM的尺寸的话,现在的4*DIMM的位置可以放下三块CAMM内存)、CXL内存掌管容量
如果APU是张显卡并且用上LPCAMM那会怎样? 如题了,把两个16WGP的GCD和一个64MB的X3D贴到支持256BIT LPDDR5X的大IO上,然后流片一款双CCX的16C ZEN5C CCD(CCX的L3只有8MB),然后4CCD+1IO那样2.5D封装起来,再把这个芯片BGA封装到显卡主板上,显卡主板上预留四个LPCAMM的LGA接口,主板上仅提供双8 PIN供电口。这样一块显卡的显存有多少全看用家的财力与喜好(假设一条容量是64G,四条就是256G了)。要是有这么一堆APU显卡,你们会打算拿他做什么?
ZEN架构会不会到了第8代就尽头了呢? 如题了,单个CCD直接到了8C64T,每个内核四个256BIT的FPU,而且CCD还是采用X3D的垫底的封装方式,全核满载跑6G,单核最高跑6.5G,双CCD的生产力逼近撕裂者7980X,而且还集成64CU规模的UDNA,更重要的是支持256BIT的DDR6和7内存
也许ZEN6有支持DDR6的版本时,他会是这样的 如题 1、ZEN6的桌面主流型号会是四CCD达到64C,并且CPU封装规格变大一点 2、CCD进一步拆分成L3缓存模块和计算核模块,以化整为零的方式搭建16核CCX,其中计算核用紧凑型的2NM工艺(最高频率可能没有ZEN5那么高),而L3缓存模块会采用4NM工艺,计算核模块3D封装在L3缓存模块上 3、主流有两个IOD,采用2.5D的4+2封装,内核采用紧凑型的2NM工艺 4、每个IO内有一个DDR6控制器、一个CXL控制器、一个16X PCIE控制器、一个64AIU的NPU和128MB的LC缓存(其中在没有插显卡时,其中一个IO上的NPU会化身亮机卡,性能等效256SP的RDNA2) 5、也许桌面的DDR6有CUDIMM和CAMM两个版本,单条自带四条通道,乐观估计每条通道再拆分成两条子通道(如果单条DDR6内存是96BIT的话,那他实际上就是8*12BIT了) 6、也许是会透过CXL内存扩展功能变相支持物理四通道(CAMM或CUDIMM+CXL) 7、主流旗舰的FP32算力会达到29TFLOPS
如果AMD把CXL和CAMM概念结合起来,多路平台可以实现无限扩展 如题了,如果把多路主板化整为零,变成CXL主板+ITX平台,其中ITX平台上的内存插槽变成CAMM接口(只留接口位,不留CAMM内存位置),透过专门的CAMM扩展线把两个ITX主板与CXL主板连接在一起(有点类似IO于CCD分开流片,等最后步骤才连接起来一样),就像下图那样,CXL主板之间既可以平面扩展,也可以立体扩展(上下),只要有支架固定就好,原则上可以实现无限扩展,而且主板上保留的PCIE接口可以安装显卡的,相当于组建多路的APU
我觉得主板上的CAMM内存插槽可以让主板变得更简单 如题了,看到CAMM内存的安装方式和X16的PCIE延长线后有感而发,假设CAMM出双公延长线的话,让内存装到扩展板上,那内存插槽的扩展性不就比现在的DIMM插槽扩展性更大了,重要的是不用为了能装得下两块CAMM内存而重新设计主板的螺丝位
我觉得Point和HALO的内存控制器是在赌DDR6的规格 已知LPDDR6颗粒的位宽是24BIT(2*12BIT) 如果DDR6内存是自带四通道的话,那单条DDR6的的位宽应该有96BIT(8*12BIT) 那CAMM的DDR6应该是192BIT(16*12BIT) 不知道能这个规格的内存能拉多大规模的CPU
要是HALO款IO放撕裂者平台上 貌似128C也放得下,绿色那个框框跟撕裂者7980X的框框是一样大的
要是Strix Halo跑到撕裂者平台上会怎样 如题了,如果4块这样的IO搭配8个ZEN5的CCD用来做人工智能上的芯片应该不错吧
原来关掉加速后的R9 3950X功耗真的跟R7 1700差不多 原本以为旧CPU会连根拔起(然而拔出散热时CPU好顺利地留在主板上),现在给新U搞了个四铜管的风冷(不过硅胶涂抹得不均匀,压他的时候近内存那边的几乎没有,现在是真的好粘稠,拔不出来,不勉强了),把酷频与BPO都关了,跑了半个小时满载,最高也就70W
16通道的CPU结合CAMM内存后也许平台大致长这样 我刚刚看了某网站关于CAMM的介绍,大致意思是CAMM内存规格有64BIT和128BIT两种,我画得那个草图是按128BIT规格画得下面附上两张目前CAMM的规格,像图一那样的排列方式日后有可能实现
假设INTEL在拥抱COWOS封装的情况下加规模 如题了,用INTEL5工艺流片8C的P核簇、32C的E核簇、32EU的GPU,用N5工艺流片内含NPU的IO,用N6工艺内存控制器、PCIE控制器,最后在中介板上把一个P核簇、两个E核簇、两个GPU、IO以及内存控制器和PCIE控制器封装在一起,其中在中介板上预设一个RING通道把P簇和E簇串连起来(可不经过IO直连),两个GPU则把P核和E核的L3作为下级缓存使用(既然可以通过E核访问L3,也可以通过IO访问L3) 那这样的8大64小面积的主流U也就比现在的13900K大一半而已,但他的CPU性能不会比撕裂者7995WX差多少,整体性能可以跟双路霄龙9654差不多(重要的是还剩下了亮机卡的钱)
ZEN6的型号会不会更多样化 如题了,有没有一种可能到了ZEN6这代无论从CCD到IO都变得散件化,所有的散件都透过COWOS封装的形式重新组合在一起 说人话: CCD里能看见16NM的中介层、5NM的IF芯片和L3大缓存、2NM的内核 IO上能看见16NM的中介层、5NM的功能芯片、3NM的GPU 到最后一步还是CCD+IO组成一个完整的芯片
我在想PCIE会不会取代内存插槽 如题了,刚刚看了PCIE 7.0的标准,发觉其16X的双向传输速度可到512G/S 那一定意义上讲,CPU和GPU访问PCIE上的CXL内存就满足需求了 不知道到时候ZEN7和17代酷睿会不会放弃把内存控制器做进芯片里
GDDR7的标准来了,大概知道DDR6内存的样子,目测AI都会加规格 如题了 GDDR5、GDDR6(2*16BIT)、GDDR7(4*8BIT)颗粒都是32BIT 那对应的代数内存就是DDR4(64BIT)、DDR5(2*32BIT)、DDR6(4*16BIT)了 目测DDR6内存的频率保守可以上24G,也许AMD和INTEL到了DDR6的时代把64C规模的芯片下放到主流也不足为奇
假设X3D的32C和16核的APU放在面前,大家会怎么选 假设IO不再集成GPU而是改为集成NPU,假设计算核部分从现在的2个变成3个 1、利用X3D把两个ZEN5的CCD串连成一个大的CCX,而旁边第三个单元是16C的ZEN5C 2、两个ZEN5的CCD,而旁边第三个单元是16CU的GCD(而且带LC缓存) 这两个选择大家会更倾向那个?大家不用担心能不能放得下,只要IO从6NM变4NM后面积就缩一半了,刚好有位置容纳第三个CCD
猜下一代ZEN5主流的方向 如题了,从WIN12的更新要求来看,下一代的IO可能会集成NPU,然后RDNA3会以GCD的形式跟CCD放一起(我猜GPU的规模可以上16CU) 假设ZEN5的CCD与ZEN5C的CCD与16CU的GCD面积是一样大的话,那在笔记本和PC型号里都可以妥妥组建24C的APU,至于笔记本功耗那点事……TC接口的供电最高可以到240W,只要频率不是拉得很高应该没有问题
ZEN5的型号会这样不? 主流:16C+16CU、8+8+16 高端:64+64 服务器:128C、256C、64+128CU 我觉得ZEN5和ZEN5C的CCD面积都是一样大的,把CCX架构拆开成仅有内核的CORE模块(3NM流片) 和 含有CCX缓存和IF单元的底层连接IFD底板模块(4NM流片),然后再用打螺丝的方式把CORE模块以2.5D封装的方式封装在IFD上(而RDNA3也是用这个方式封装在IFD上,使其变成戴IC缓存的GCD) 其次是可能会对CCD二次的2.5D封装,使CCD规格变得多样 最后是IO核可能从主流到高端都会重新设计重新流片,其中主流IO将不集成核显改为集成AI核,而高端型号也会集成AI核
感觉ZEN4的WX型号限制了内存超频有点可惜的
原来SP6真能放得下96C甚至128C 从图中可以看到原来是放得下12个CCD的,那为何还要弄个正方形的芯片底板呢?
就目前而言,AMD真的没有对手了 如题了,ZEN5霄龙放出的ES版是64C的,已知ZEN5的CCD内最高还是8C,那可以肯定AMD大概率从主流到高端都IO了,假设新一代IO是一个灵活组装的SOC的话,那撕裂者集成核显、霄龙集成HBM都会成为可能,至于主流方面这IO换了可以节省面积,不换也无伤大雅
隔壁至于开窍了 目测那一小块就有24个核
MI300家族的参数都在这 下面这四个型号的共通点就是内存都装进芯片去了
我觉得ZEN5的Strix Point和Strix Halo会更注重立体封装 如题了,看MI300系列后获得的看法
也许越简单良品率越高 从别的IT资讯里看到的信息
我构思的AI处理器框架,以ZEN和RDNA来改的 首先给小核单元和图形单元进行明确分工(大核自然是AI核了) 其次是可以把大核以立体封装的形式封装到IOD里,大核组的RING环的部分从现在的32BIT升级到8*32BIT(一次流片难度大,但分层流片就简单多了) 接着小核的部分参考推土机架构修改,把GPU单元以整数单元的形式植入ZEN的内核里,使用单核变成多核模块(一个模块就相当于一个小型APU),小核模块则以CCD的形式存在 然后大核给SMT8,小核给SMT4,我臆想的参数是24C128T 最后就是我构思中的分工了 让IOD里的大核接任务和最终执行任务,让CCD上的小核模块负责试错,得到最优执行方案后才让大核来执行
猜ZEN5、ZEN5 3D是一组,ZEN5C是另外一组 如题了,在网上已经看到部分疑似参数了,发觉ZEN5的L2L3是没有变化的,但我觉得ZEN5的CCD有可能比ZEN4的要小,缓存如果往高空发展的话,占地面积的确是可以缩小的,在内核与内核沟通方面,既可以走大道(RING)也可以抄近路(MESH)达到目的地的话,那数据传输的速度不就比现在快多了 到了3D的时候,如果L2也可以用TSV堆叠进行加量的话,L2增加带来的红利应该比只增加L3的红利更大 至于ZEN5C那里,我猜纯粹是新工艺版本的ZEN5上再把ZEN5D用TSV的方式加到CCX中,L3也许会加也许不加 最后那IO核可能到ZEN5这代都不会换(如果ZEN5这代霄龙顶格是192C的话,还真没有换IO的必要)
我觉得IO里有HBM后,霄龙堆千核是可以的 如题了 其实从5NM进化到3NM后,虽然缓存无法缩减面积,但可以往高空发展 其次是单颗HBM3最高传输速度是双向1T/S,相当于16根DDR5 8000开16通道的速度 最后内核部分投机取巧一下的话,把每个RING节点的单核变成共享L2的双核,并且一个CCD有32C的话(双CCX) 在SP5芯片大小基板上用32个CCD加一个IO堆出1024C不是问题
ZEN5尘埃落定 简单概括是这一代加L1但不多,其他部分参数如无意外基本相同
臆想了一个未来的主板 未来的台式机内存理论上无线扩展,内存条是往上垒的
ZEN5会以怎么样的形式呈现在大家眼前还真不好说
好厉害的一颗96C 这框框看得我是眼花缭乱
我突发奇想,NVDIA会不会跟AMD再合作做主板 如题了,例如用12NM做一个带512SP核显的主板芯片,然后该主板芯片也跟ZEN4的IO一样拥有双通DDR5内存控制器(内存插槽四个口,各自独占两个口)
也许N3就是比N5厚一点罢了 大家猜AMD的ZEN5是在ZEN4C的基础上精细化魔改还是重新流片?
给大家看看AMD的大单子(顺便夹带点私货) 下图是双路192C的大家伙对于最近台积电部分工艺搬到美国的看法我认为未必是坏事也不见得是好事, 按实力而言,台积电可以做5NM以下的芯片而美国本土厂目前还是10NM的 其次是选用多次流片其实是比一次把芯片直接流片的难度小(只要预留接合位就好,麒麟9000和M2就是这么干的,既然容易了自然就不想让给你做了) 最后是台积电会不会做捡芝麻丢西瓜的事情可真不好说
按道理这个贴不应该在这里发,但还是发出来让大家看看好了 喜闻可见地说一句很快AMD也会紧随其后
好喜欢看苏妈手上的新鸽子蛋 可是这IO的透视图是不是告诉我们最多只能12+1了
猜RDNA3部分系列规格 NAVI 31顶级是48WGP、96M的IC、24G的GD6X、3*8PIN的供电(RX7950XT 2.4G~2.6G) NAVI 32顶级是32WGP、64M的IC、16G的GD6X、3*8PIN的供电(RX7890XT 2.8G~3.2G) NAVI 33顶级是32WGP(WGP内规格减半)、32M的IC、16G的GD6、2*8PIN的供电(RX7790XT 2.6G~2.8G) 要是弄双芯卡的话,单芯的部分用双NAVI32比单NAVI 31的实力更强 例如:2*64WGP、2*128M的IC、64G的GD6X、2*16PIN的供电(PCIE 5.0供电接口)
为什么金黄锦鲤养旧后身体变白金了 如题了,养旧后就只有头是金黄色,其他地方都变浅了,而且还生出了闪鳞
从综合讲,高频SMT8的16核 应该比 低频SMT2的64核更强些 如题了,假设内核里有24个ALU那在SMT8的时候平均每个线程都可以分到3个ALU的资源 如果在内核里加一个资源控制器限制每个线程使用ALU的最多值和最少值的话, SMT8可以当作是1P7E的大小核,只要频率够高,16C128T可以等效频率较低的64C128T 而64核的规模比16核大,抛开体质不说,要是64核提高频率必定功耗也会增加很多
臆想ZEN5的大小核 ZEN5大核:L1L2缓存在ZEN4的基础上翻倍,并且每个两个内核设一个专属的管理芯片,内核透过专属的管理芯片才能访问内存(以四个核为一个SE,均带L3),最后把4到6个四核SE贴在带RINGBUS节点的计算核基板上,以此实现一个CCD达到16C到24C的目标,并且CCD内L3共享 ZEN5小核:L1在ZEN4的基础上砍掉一半,然后多塞三个整数单元和一个FPU让单核变成四整数四线程的模块切带L3,最后把16个这样的模块用MASH的模式把他变成64C,但他并不放在CPU上,而是放在显卡上跟GPU共享显存 大核小核均支持AVX512指令,但大核可以实现频率自由而小核则是以节能为主限制最高频率,透过SAM技术实现大小核的沟通,在大核全部满载的时候小核才参与任务
问一问西朗站的问题 如题了,1号线和10号线的总站,GF1和22号线是中转站,请问到时候该怎么换乘?现在1转GF1感觉有点不习惯
我在想AMD的大小核会利用SAM技术的方式实现吗? 如题了,可以用推土机架构尝试AMD的MASH技术,把他放在GPU内,让他跟GPU共享256位显存,利用PCIE5.0的速度实现CPU直连(16X的速度貌似有128G/S)
我觉得ZEN4C/5一个CCD做16核还是可行的 刚刚看了一下RINGBUS的一些资料,原来早期的至强24核就是把两组RINGBUS用增加RING节点的方式把两组12核互联起来的,那ZEN4C/ZEN5也可以用同样的办法把四组4核互联起来,用砍件拼装的办法就可以把成本降低了(就是那个CCD看起来会厚一点)
也许就是晚点出而已
1
下一页