小tree_666
小tree_666
关注数: 330
粉丝数: 562
发帖数: 3,207
关注贴吧数: 43
STX HALO dieshot stepping:A0A0 diesize:CCD:7.42*9.04=67.0768*2 iGPU:16.02*19.20=307.584
66的u-arch小课堂 为什么Apple Silicon在R24中这么强? 如你所见,今天我们要讲的是,为什么,Apple Silicon在Cinebench R24中表现如此的强,连隔壁的X86都甘拜下风,尤其是M4,我看我们的贴吧老哥都跑上192了,简直是非常的厉害。 首先我们需要明白R24是一个比较重LSU的一个benchmark,那么M4刚刚好大提升的就是这部分,那么今天我们引入我们的主题,LSU,LSU是CPU中很重要的一个部分,我们首先需要了解一下什么是LSU。LSU 是 “Load–Store Unit”(加载存储单元)的简称,是一个专门负责处理所有访存指令(即加载 load 和存储 store 指令)的执行单元。 下面我将从多个角度详细介绍其功能和内部结构。1. LSU 的主要功能 (1)执行访存指令LSU 主要负责将程序中发出的 load 指令和 store 指令送入内存系统进行处理。这包括根据指令中给出的基地址、偏移量等信息计算出实际访问的地址,并根据地址从缓存或主存中读取数据(load),或者将数据写回内存(store)。(2)地址生成与虚实地址转换为了确定内存中具体的位置,LSU 内通常会包含一个或多个地址生成单元(AGU)。AGU 负责执行简单的算术运算(如加法),将基地址与立即数或寄存器内容相加,从而计算出访问地址。与此同时,在采用虚拟内存的系统中,LSU 还需要将程序使用的虚拟地址转换成物理地址,这一过程一般依赖于 TLB(Translation Lookaside Buffer)来加速转换过程。 (3)处理访存依赖和数据转发在现代高性能处理器中,指令往往是乱序执行的。LSU 不仅要确保各条访存指令按正确的顺序完成(即满足内存一致性和程序顺序要求),还需要解决因数据依赖产生的潜在冒险问题。例如,若一条 load 指令依赖于一条尚未完成的 store 指令,LSU 可能会通过“数据前向转发”(Store-to-Load Forwarding)的机制直接将 store 指令产生的数据传递给后续的 load 指令,从而降低延迟并提高流水线利用率。 2. LSU 的内部结构,LSU 内部一般设计有两个队列: (1)Load Queue(加载队列)与 Store Queue(存储队列)为了管理所有访存指令, (2)Load Queue (LDQ): 用于暂存所有待执行的 load 指令,在这些指令执行前,会先进行地址计算和依赖检查; (3)Store Queue (STQ): 用于记录所有 store 指令,特别是在乱序执行中,store 指令可能提前计算出地址和数据,但数据真正写入内存时需要保证按程序顺序提交。通过存储队列,LSU 能够检测 load 与 store 之间的依赖关系,并在可能出现数据竞争时采用转发技术。 (4)地址生成单元(AGU)AGU 负责将load/store 指令中的地址计算任务具体化,结合基地址与偏移量,生成最终的内存访问地址。这一步骤对提高访存操作的效率至关重要。 (5)与缓存/内存系统的接口LSU 是 CPU 内部执行单元与外部内存系统之间的桥梁。它不仅向缓存(如 L1 数据缓存)发出数据请求,而且还接收缓存或内存返回的数据。在缓存命中情况下,数据可以迅速从缓存传递给 CPU;而在缓存未命中时,LSU 会协调从更低级别内存中取数,同时管理等待和重排操作。 总之,LSU(Load–Store Unit)是 CPU 中专门负责处理内存访问操作的执行单元。它通过内部的地址生成、Load/Store 队列以及数据转发等机制,确保 load 和 store 指令能够高效且正确地与内存系统交互。在支持乱序执行和高指令并行度的现代 CPU 设计中,LSU 的高效实现对于整体性能至关重要。这种设计既要求严谨的硬件逻辑,也需要在系统级别上考虑访存延迟、依赖检测以及缓存接口等多个方面,从而实现既严谨又高效的内存操作管理。这也就是我常说的,一个优秀的u-arch三要素,BPU,LSU,prefetcher,把这三个能够做好,才能达成performance和energy的最强。
我不要脸的宣传一下啊 吧精华里的这个帖子,这个后面就作为66的u-arch知识小课堂,以后不定期更新,我想到啥就会讲一讲,我认为我们吧里不应该是对线和斗蛐蛐,大家也应该学习到一些知识。
Strarlink的DTC(Direct To Cell)技术,在不同国家用的频段不一样,那美国本土T-mobile举例,使用Band 2和Band 25的频段(DTC上行1910-1915MHz,下行1990-1995MHz),林檎我看全球版本基本都支持这个频段。所以,国行iPhone去美国也是能用DTC?
最近听说DeepSeek很火 我拿A18 Pro先试试4bit quantization的7B的。然后在1.5B试试。
睡不着,想聊聊BP 晚上翻笔记发现了自己一堆BP的idea,但又不知道从何说起……
ARM Chiplet System Architecture rt
A18,A18 Pro,M4 dieshot A18 Pro dieshotstepping:A0C2 diesize:8.44*13.00=109.72mm2 A18 dieshot stepping:A0A0 diesize:7.84*11.79=92.434mm2 M4 dieshot stepping:B1D4 diesize:13.21*12.82=169.3522mm2 底图@万扯淡
哎wc,美国怎么这么坏啊 rt
标题5个字
平安夜当然要买Apple了 (以后谁说性能无用的我第一个抽死他,亏死我了)
Ascend 910C 910C is double 910BDensification FP16 600TFLOPS,but NVIDIA H100 is 1PFLOPS,B200 is 2PFLOPS,B200满血2.5PFLOPS。(1PFLOPS=1000TFLOPS) next year 910D N+2,或许可以对标NVIDIA H100,但NV得Blackwell又有半代升级……
原来CN的technology这么强啊。还有不同的路线,可以不依赖advance node,简直太厉害了。
STX HALO GB6 GPU rt
breaking news rt
Breaking News 基辛格退休,intel将何去何从
New Kirin考前密押 看个乐子 CPU: size:1+3+4 freq:2.5+2.15+1.6 TSV-130 (9010同款大核,OC至2.5GHz) TSV-130middle(9010同款中核) TSV Small (自研小核,2issues,OoO,对标Cortex-A73) GPU:maliang 4CU 850MHz
M4 dieshot stepping:A0A0 diesize:13.21*12.82=169.3522mm2
标题五个字 预告
浅谈Oyron 2 BPU what can I say。这BPU还用说,Firestorm同款BPU。TAGE 80KB,ITTAGE 40KB,L0 BTB 2048entry。对这个规模不需要抱太大期待。看看图就知道不如X4水平。ARM的BP算比较一般的,如果放到和今年新出的新世代u-arch那完全比不了。像AMD的16K-entry L1 BTB以及Multiple-Block Ahead Branch Predictor。Apple增加table和BTB的BPU。intel……,额,这个不怎么能讲。前两家的BP都是有相当大的进步。 当然肯定有人会问啊,BPU重要,咋Oyron表现那么好。很正常啊,力大砖飞,4.32GHz+3.52GHz。反正power不要了,靠不要脸去win还是能win的。 当然还会有人说,架构师你又在信口雌黄了,Oyron 怎么可能抄Firestorm。如果你去翻我6月发的浅谈,那里的图,BPU的hash function都一样,only copy can do。 还是那句话,u-arch三要素,BP,LSU,Prefetcher,得三者得天下。
M4 MacBook Pro来了 rt
标题五个字 金盆洗手
M4的Mac Mini发布了 rt
M4 Mac来了 首先是iMac搭载M4
M4 Mac来喽 首先是iMac搭载M4。
Kirin 8000 dieshot stepping:A0A0 diesize:7.55*9.27=69.9885mm2 工艺:SMIC N+2(K9000S同款)
我想知道华为把Mate XT卖哪去了,西安咸阳线下全没货。怒了。 (这手机我是真喜欢,今年维二喜欢的产品,一个是Vision Pro,另一个就是Mate XT) 也不知道啥时候能买到。
M4高阶要来了 下一周发布
这波我站ARM,断ISA授权可就太好玩了。加大力度
ARM计划取消对高通芯片的许可,双方争端加剧。ARM起诉高通,指控其2022年违反合约。
因一些不可抗力问题,M4高阶不会有考前密押,发布后会有真题解 因一些不可抗力问题,M4高阶不会有考前密押,发布后会有真题解析
浅谈mini 你果辛辛苦苦攒了1年的A17 Pro硅渣。真是辛苦你果了呢。 (M4高阶考前密押懒得发了)
晚间小谈。 听说高通CEO说极客湾测的SPEC不对?我寻思你高通知道keynote发有驱动的Linux的SPEC,怎么就不把这个驱动发出来给别人复现了。 学术界如果复现不了,对你的结果是可以质疑的。你既然说是特定环境那就把环境全部开源发出来,而不是在这叫唤。
A18 Pro dieshot stepping:A0A0 diesize:8.44*13.00=109.72mm2
看XE layout有感 what can i say?Qualcomm out! XE比一下M3 Max,一个就是放大版mobile phone chip,另一个才有PC Chip的样子。 先说说整体的floorplan,按理来说,应该把latency敏感的mod放一起,尽可能在distance上去做short latency,然后再让fabric去走四周。(整个顶层的摆放一开始会和design他们讨论很久确定十几种方案,接下来根据IP Core和other mod的area去进行调整。)然而,高通这玩意,还能说啥,只能说performance确实不是他们的目标,to be a joker,确实是目标。 再看看Core,拿Coll和Oyron比一比,这Oyron有一点做high freq的样子吗,整个layout上mod的规整做的挺差的,再看看Zen5,只能说,Oyron真就是抄都抄不好。u-arch分析翻我以前发的东西。
考前密押的含金量还在上升 考前密押的含金量还在上升
标题五个字
晚节保住了,考前密押挺准的,10月见
朝花夕拾 朝花夕拾
临时更新(2) 晚节保住了,呜呜
临时更新(1) 发布会第二天我就说了cache被砍,但是看起来没人看见。还有,怎么会有人觉得A18是A18 Pro屏蔽来的,N3E的yield能屏蔽几个A18出来,这不现实。不如新开die,反正TSMC送了免费tape-out机会,不用白不用嘛。
浅谈A18 Pro 看起来考前密押还是有些乐观,目前的分基本上3400 8400,看起来就是极限了。至于3450 9000,这就真是only liquid nitrogen can do了。悬着的心还是似了,晚节还是不保了。
吓死我了,差点晚节不保 rt,密押准吧
浅谈考前密押 发布会看完了,考前密押基本准吧。忘了补充一点,A18是一个新die,cache(L2,SLC)砍了。Pro的cache依然保持不变。
考前密押来了 首先,P-Core:接近7W 4.05GHz,9W 4.45GHz,和M4一样的3-2Cell。E-Core:0.45W(Core),0.75W(motherboard)。 本来还是有望G6:3600 9200的,不过iOS18导致的掉分,估计最后也就个3300 8800,这很正常,说不定是修security修没了3-5%。如果我这里数据没错,G6 10W 8000,12W 8800,16W 9200,multi core efficiency就这样。G5:2450 7166。 frequency的话,P-Core:4.05GHz,E-Core 2.4GHz,Size A18 and Pro:2P4E。 接下来说说GPU。GPU还是熟悉的M4上那个Apple 9/10GPU,A18 Pro:6C 1.49GHz,A18:5C 1.49GHz。SNL的话极限应该2050 11W(6C)1800 9.3W(5C),日常估计Pro 1800?标准版1600?不清楚,总之A18 Pro的Apple 9修的更好了一些,peek +20%,持续+15%(performance)。 A18就是2P4E,5C GPU,我看CPU就差个5-6%,GPU差的多,可能10%。(对比A18 Pro)A18目标是打过A16,目前来看是超预期完成(hh)。 最后就是日常使用,日常功耗比A17 Pro低3-5%,新加了自研顺序核心当协处理器(M18回来了(确信)),用于控制功耗。全系LPDDR5X-7466 8GB(散热+10%,这次改了温控,虽然时间长了会烫,但不会像去年一开始就很烫。) 内存抽奖:SK Hynix,Micron,Samsung抽。ANE估计40TOPs,加bandwidth就是为了ANE。实际应用提升15%。应该就这些了吧,下一次考前密押M4高阶了。
因不可抗力因素,修改时间不晚于发布会前8h发布 因不可抗力因素,修改时间不晚于发布会前8h发布
最喜欢的一张图 rt
Apple Event来了 9月10号
有关A18 Series 不要急,发布会前12h以内就有考前密押了
AMD STX HALO 我突然发现我还挺期待搭载STX HALO的ROG幻X,要兼容性有兼容性,要性能有性能,价格估计也对得起产品。128GB内存,16c Zen5+20WGP RDNA3.5,这是我理想的配置。反正这玩意肯定比XE好多了,那是不可回收乐色。引用13的逻辑,连核心功耗都不敢被调取证明心里有鬼,所以XE一定不行,不然大大方方让大家测不就好了。XE续航和Apple比依然有劣势,兼容性爆炸低,不坑准大一新生都算它有道德。华为那个外接显卡的性能本和XE一对比都有性价比了,真是令人忍俊不禁,不知道有啥可吹的。说回STX HALO,有种X86阵营的M4 Max的美,期待CES2025。
有点意思的国产ARM芯 国产ARM PC Chip,ARM V9.2-A,配DSU-120,估计8*X4+4*A720?GPU有点少,Lmm MC10。 楼下补图。
我觉得,吹Oyron之前先明确一下这是什么东西。一个大部分p 我觉得,吹Oyron之前先明确一下这是什么东西。一个大部分part原封不动抄袭四年前Firestorm的u-arch,在2024年碰瓷新锐u-arch,本身就是一种不要脸行为。更何况这款u-arch在抄袭部分仅仅发挥出Firestorm的水平,例如Front-end part的BPU,Fetch。而自由发挥的部分,例如LSU,Prefetcher。这些东西表现打平甚至不如X3。这样一坨玩意,靠着4.3GHz的超高频,超过12W的高功耗碰瓷。我不管你1.5做成啥样,至少1.0就是这样的东西。抄袭就是抄袭。不如人就是不如人。不论是FP找理由还是怎么开除任何不利于赢的benchmark。事实是这东西就是个20年的u-arch。至于什么FP有利游戏的神论。但凡有点基础的人都不敢这么想。 我回想起去年,分支预测都能打错字。以及神话威廉姆斯三世。真的很可笑,团队的努力看不见,只知道神话某人,自己去做一个高性能乱序超标量的架构就老实了。
LIama3 405B 两台M3M 128GB就能跑了,我觉得可以期待一下M3 Ultra了,毕竟支持最高512GB的memory
预测一下国产俩玩意 New Kirin,你米字研芯 都1+3+4, Kirin大概率TSV-130big+TSV-130middle+A510 米:X4+A720+A520 这俩CPU多核都能做到强于8 Gen2一点,你米单核会比Kirin高。
浅谈A18 Pro与M4高阶 听说吧里的果粉好像对Apple GPU有着莫名的期待?那好吧,我预测A18 Pro 6c Apple 10 GPU 1.47GHz(M4同款的)预计peek +20%,持续+15%。SNL举例,可能极限就在2000-2100,最多不过2160(10.5-11W)average在1800。A18的5c的话,perf打平A17 Pro,功耗低一些,可能8-9W? 高阶的话,寄希望模具压得住1.6GHz吧,GPU的size没动。Pro会有一点surprise
Zen5架构图 stepping:A0A0 (作者yy:好活,multi decode cluster配SMT,性能好不好不知道,反正挺有意思的)
绝区零有点抽象啊 看jkw给的这个占比,绝区零吃frontend的perf还有memory bandwidth,bandwidth我不好说林檎,但是林檎u-arch的frontend的perf非常强,那么林檎表现好就能理解了。
恭喜新任吧主上任通吧 @子衿2.0 恭喜新任吧主上任,我相信在新任吧主领导下,通吧氛围可以更加祥和。
哎,谁能想到啊 怎么会这样
浅谈一下Nuvia Oyron 前端这块。BPU基本完全照抄,按理来说1k-entry L0 BTB配3-6k-entry的L1 BTB,就会有更好的表现,哎我们高通有自己的想法,直接2048-entry的L0 BTB,一旦溢出就得奔L1i去了。为什么是L1i,coupled design小子。直接把latency拉大,增大bubble。predictor更乐,直接全部照抄,size,feature也抄。抄也不看看生态,IJP在Apple那可能不咋重要,但是在安卓,windows这块,28%的Branch Miss都源于IJP,你高通拿着砍的只有2个table的ITTAGE,过了2 Target Number就出现performance的严重下滑。RAS还行吧,手机电脑16-32entry就够,Oyron给48entry。哦对,抄了这坨Apple的BTB design,fetch size上限就是16wide,成功锁死上线,f**k good job。 next,ROB,我们都知道ROB是register搭的,big capacity是会影响area,power的,然后给650entry。给大ROB有个前提是Branch Miss要低,不然一次清空有你好受的。当然大的ROB肯定对性能有帮助,不要看Firestorm 330entry,Donan-P 400entry,人家玩的是Coalesced ROB。1条能合并7条instructions。 想到啥再写啥吧,奉劝股东们,认清现实。我自己也写了文章,放在酷安,有兴趣可以看看(不要脸的推销文章是屑)
首页
1
2
3
下一页