小tree_666
小tree_666
关注数: 333
粉丝数: 521
发帖数: 2,964
关注贴吧数: 43
看XE layout有感 what can i say?Qualcomm out! XE比一下M3 Max,一个就是放大版mobile phone chip,另一个才有PC Chip的样子。 先说说整体的floorplan,按理来说,应该把latency敏感的mod放一起,尽可能在distance上去做short latency,然后再让fabric去走四周。(整个顶层的摆放一开始会和design他们讨论很久确定十几种方案,接下来根据IP Core和other mod的area去进行调整。)然而,高通这玩意,还能说啥,只能说performance确实不是他们的目标,to be a joker,确实是目标。 再看看Core,拿Coll和Oyron比一比,这Oyron有一点做high freq的样子吗,整个layout上mod的规整做的挺差的,再看看Zen5,只能说,Oyron真就是抄都抄不好。u-arch分析翻我以前发的东西。
考前密押的含金量还在上升 考前密押的含金量还在上升
标题五个字
晚节保住了,考前密押挺准的,10月见
朝花夕拾 朝花夕拾
临时更新(2) 晚节保住了,呜呜
临时更新(1) 发布会第二天我就说了cache被砍,但是看起来没人看见。还有,怎么会有人觉得A18是A18 Pro屏蔽来的,N3E的yield能屏蔽几个A18出来,这不现实。不如新开die,反正TSMC送了免费tape-out机会,不用白不用嘛。
浅谈A18 Pro 看起来考前密押还是有些乐观,目前的分基本上3400 8400,看起来就是极限了。至于3450 9000,这就真是only liquid nitrogen can do了。悬着的心还是似了,晚节还是不保了。
吓死我了,差点晚节不保 rt,密押准吧
浅谈考前密押 发布会看完了,考前密押基本准吧。忘了补充一点,A18是一个新die,cache(L2,SLC)砍了。Pro的cache依然保持不变。
考前密押来了 首先,P-Core:接近7W 4.05GHz,9W 4.45GHz,和M4一样的3-2Cell。E-Core:0.45W(Core),0.75W(motherboard)。 本来还是有望G6:3600 9200的,不过iOS18导致的掉分,估计最后也就个3300 8800,这很正常,说不定是修security修没了3-5%。如果我这里数据没错,G6 10W 8000,12W 8800,16W 9200,multi core efficiency就这样。G5:2450 7166。 frequency的话,P-Core:4.05GHz,E-Core 2.4GHz,Size A18 and Pro:2P4E。 接下来说说GPU。GPU还是熟悉的M4上那个Apple 9/10GPU,A18 Pro:6C 1.49GHz,A18:5C 1.49GHz。SNL的话极限应该2050 11W(6C)1800 9.3W(5C),日常估计Pro 1800?标准版1600?不清楚,总之A18 Pro的Apple 9修的更好了一些,peek +20%,持续+15%(performance)。 A18就是2P4E,5C GPU,我看CPU就差个5-6%,GPU差的多,可能10%。(对比A18 Pro)A18目标是打过A16,目前来看是超预期完成(hh)。 最后就是日常使用,日常功耗比A17 Pro低3-5%,新加了自研顺序核心当协处理器(M18回来了(确信)),用于控制功耗。全系LPDDR5X-7466 8GB(散热+10%,这次改了温控,虽然时间长了会烫,但不会像去年一开始就很烫。) 内存抽奖:SK Hynix,Micron,Samsung抽。ANE估计40TOPs,加bandwidth就是为了ANE。实际应用提升15%。应该就这些了吧,下一次考前密押M4高阶了。
因不可抗力因素,修改时间不晚于发布会前8h发布 因不可抗力因素,修改时间不晚于发布会前8h发布
最喜欢的一张图 rt
Apple Event来了 9月10号
有关A18 Series 不要急,发布会前12h以内就有考前密押了
AMD STX HALO 我突然发现我还挺期待搭载STX HALO的ROG幻X,要兼容性有兼容性,要性能有性能,价格估计也对得起产品。128GB内存,16c Zen5+20WGP RDNA3.5,这是我理想的配置。反正这玩意肯定比XE好多了,那是不可回收乐色。引用13的逻辑,连核心功耗都不敢被调取证明心里有鬼,所以XE一定不行,不然大大方方让大家测不就好了。XE续航和Apple比依然有劣势,兼容性爆炸低,不坑准大一新生都算它有道德。华为那个外接显卡的性能本和XE一对比都有性价比了,真是令人忍俊不禁,不知道有啥可吹的。说回STX HALO,有种X86阵营的M4 Max的美,期待CES2025。
有点意思的国产ARM芯 国产ARM PC Chip,ARM V9.2-A,配DSU-120,估计8*X4+4*A720?GPU有点少,Lmm MC10。 楼下补图。
我觉得,吹Oyron之前先明确一下这是什么东西。一个大部分p 我觉得,吹Oyron之前先明确一下这是什么东西。一个大部分part原封不动抄袭四年前Firestorm的u-arch,在2024年碰瓷新锐u-arch,本身就是一种不要脸行为。更何况这款u-arch在抄袭部分仅仅发挥出Firestorm的水平,例如Front-end part的BPU,Fetch。而自由发挥的部分,例如LSU,Prefetcher。这些东西表现打平甚至不如X3。这样一坨玩意,靠着4.3GHz的超高频,超过12W的高功耗碰瓷。我不管你1.5做成啥样,至少1.0就是这样的东西。抄袭就是抄袭。不如人就是不如人。不论是FP找理由还是怎么开除任何不利于赢的benchmark。事实是这东西就是个20年的u-arch。至于什么FP有利游戏的神论。但凡有点基础的人都不敢这么想。 我回想起去年,分支预测都能打错字。以及神话威廉姆斯三世。真的很可笑,团队的努力看不见,只知道神话某人,自己去做一个高性能乱序超标量的架构就老实了。
LIama3 405B 两台M3M 128GB就能跑了,我觉得可以期待一下M3 Ultra了,毕竟支持最高512GB的memory
预测一下国产俩玩意 New Kirin,你米字研芯 都1+3+4, Kirin大概率TSV-130big+TSV-130middle+A510 米:X4+A720+A520 这俩CPU多核都能做到强于8 Gen2一点,你米单核会比Kirin高。
浅谈A18 Pro与M4高阶 听说吧里的果粉好像对Apple GPU有着莫名的期待?那好吧,我预测A18 Pro 6c Apple 10 GPU 1.47GHz(M4同款的)预计peek +20%,持续+15%。SNL举例,可能极限就在2000-2100,最多不过2160(10.5-11W)average在1800。A18的5c的话,perf打平A17 Pro,功耗低一些,可能8-9W? 高阶的话,寄希望模具压得住1.6GHz吧,GPU的size没动。Pro会有一点surprise
Zen5架构图 stepping:A0A0 (作者yy:好活,multi decode cluster配SMT,性能好不好不知道,反正挺有意思的)
绝区零有点抽象啊 看jkw给的这个占比,绝区零吃frontend的perf还有memory bandwidth,bandwidth我不好说林檎,但是林檎u-arch的frontend的perf非常强,那么林檎表现好就能理解了。
恭喜新任吧主上任通吧 @子衿2.0 恭喜新任吧主上任,我相信在新任吧主领导下,通吧氛围可以更加祥和。
哎,谁能想到啊 怎么会这样
浅谈一下Nuvia Oyron 前端这块。BPU基本完全照抄,按理来说1k-entry L0 BTB配3-6k-entry的L1 BTB,就会有更好的表现,哎我们高通有自己的想法,直接2048-entry的L0 BTB,一旦溢出就得奔L1i去了。为什么是L1i,coupled design小子。直接把latency拉大,增大bubble。predictor更乐,直接全部照抄,size,feature也抄。抄也不看看生态,IJP在Apple那可能不咋重要,但是在安卓,windows这块,28%的Branch Miss都源于IJP,你高通拿着砍的只有2个table的ITTAGE,过了2 Target Number就出现performance的严重下滑。RAS还行吧,手机电脑16-32entry就够,Oyron给48entry。哦对,抄了这坨Apple的BTB design,fetch size上限就是16wide,成功锁死上线,f**k good job。 next,ROB,我们都知道ROB是register搭的,big capacity是会影响area,power的,然后给650entry。给大ROB有个前提是Branch Miss要低,不然一次清空有你好受的。当然大的ROB肯定对性能有帮助,不要看Firestorm 330entry,Donan-P 400entry,人家玩的是Coalesced ROB。1条能合并7条instructions。 想到啥再写啥吧,奉劝股东们,认清现实。我自己也写了文章,放在酷安,有兴趣可以看看(不要脸的推销文章是屑)
Oyron架构图 Stepping:A1B0
WWDC DAY2 DAY2有关AI的方面就多了起来,对ANE的quantization做了改进,用SD做的例子。Core ML进步还挺大。哦对,Apple还提了有关Apple GPU训练AI的事情,但不是Today。 rt
看了一下Apple Intelligence WWDC Day 1的Platforms State of the Union的Apple Intelligence部分,很有意思的一些东西,例如端测3B SLM,MoE(没听清是否有),4bit量化,再用ANE的FP16跑。估计得占个1.5-2GB,然后AI Cloud也用Apple Silicon(M2U)做推理。最主要的Mac用MLX做AI的训练,wow amazing。楼下附图吧。
M2U再就业 卖不出去的M2U拿去做AI推理服务器,明年再换M4U
intel架构图 P-Core stepping:A1B1 E-Core stepping:A1B1
标题五个字 架构图又被吞了
Samsung Exynos+Google Tensor dieshot picture1-3 is Samsung Exynos 2200-2400 Exynos 2200 dieshot stepping A0A2 Exynos 2300 dieshot stepping A0A2 Exynos 2400 dieshot stepping A0A3(修复了cache标注错误) Exynos2200 e9925 diesize 9.69x10.80mm=104.652mm2 Exynos2300 e9935 diesize 10.53x10.93mm=115.0929mm2 Exynos2400 e9945 diesize 10.61x12.95mm=137.3995mm2 picture4-6 is Google Tensor G1-3 Tensor G1 dieshot stepping A0A0 Tensor G2 dieshot stepping A0A0 Tensor G3 dieshot stepping A0A0 Google Tensor G1 diesize10.52x10.71mm=112.6692mm2 Google Tensor gen2 diesize 10.68x10.70mm=114.276mm2 Google Tensor G3 die size 10.71x12.62mm=135.1602mm2
ARM X925,A725架构图 stepping:A0A0
ARM新一代公版架构 如图,楼下更新 Cortex-X925和A725,X925有up to 3MB L2 cache,引入SME陪Apple刷分
ASML Hyper NA EUV IMEC ITF World 2024,ASML画了0.75NA EUV的饼,还有2DFET
Kirin 9010 diesize:116.818702 dieshot:还没
M2 Max SNL 如图 楼下补power
M4 P-Core架构图 看起来我还是准的,不过LSU错了,是分开的3ld 2st
Donan Voltage rt P-Core还有1.15V的4.512GHz的档,看起来得Mac来了。 图源:asto
重新预测一下New Kirin 以前预测太早了,变化还挺大。 Kirin 9100(?) CPU:1+5+2/2+4+2 (TSV-130+TSV middle+A510) (2.8+2.2+1.8) GPU:Mallone920 6CU NPU:Ascend middle+little 1+1 Modem:balong6000 SMIC:N7++(N+3)? benchmark G5:1400 5600 G6:1750 5800 CPU Power:5.2W 11.3W GFX Aztec 2K:41fps 3D Mark WLE:2100 GPU Power:8W
Apple Donan P-Core 架构图 stepping:A0A1 楼下补图
再谈M4和A18 Pro Apple在这代arch引入了SME,G6上面刷分刷的还挺不错的,但是我还是要泼冷水,SME通过FP的刷分带来了7% IPC improve,arch上改进了execution unit design,大概1% IPC improve,PA尽力了,IPC确实难提升。不如PD去给你OC,OC到4.4GHz,4.5GHz。 再说说SME,SME就是Apple PA带着ARM做的基础是从AMX来的,当然,M4,A18以后就SME ISA替换AMX ISA了,但是AMX hardware还在,SME支持256byte的FP instruction。在arch上其实就可以做不止以前NEON的128bit的FP,可以往256bit去做,毕竟SME支持256byte呢。(你可以把SME理解为ARM阵营的AVX512)至于power…… 最后说说A18 Pro,一句话,M4能跑3800≠A18 Pro能上3500,iPhone压不住的。对了M4的高阶会加核,SME越加核可能会衰减哦,香槟别开太早
我说什么来着 iPad Pro跑分来了 4.41GHz 3707 14523 这不爆杀X Elite?,而且有可能引入SME了,毕竟3700
预测一个小米自研SoC X4+A720+A520 1+3+4 3.0GHz+2.5GHz+2.0GHz Mali G720 MC7/10 1.3GHz G5:1530 5200 G6:2010 5100 single core power:4.8W multi core power:9.5W GFX Aztec 2K:51/72fps GPU power:8.6W/11.8W (据不可靠消息,这是小米自研的,没外援) TSMC N4P LPDDR5X-8533? Modem:MTK M80(外挂) Wi-Fi:Boardcom?BCM4388?(纯猜,反正不是高通)
每次到重要时候就吞贴 look wider decoder and execution engines so 10wide decode? 5FP?4ld?3st?
谁说M4没改arch的 请看keynote wider decoder and execution engines 所以,10wide decode 12ALU? 5FP?4ld?3st?
**苹果,靠 **啊
M4来了。 怎么讲
坏了,你通吧又夹我图 坏了,我的架构图又被夹了,怒了,其他平台发吧。
Nuvia Oyron架构图 架构图stepping:B0B0 (cache是由已知爆料推测) 作者:LITTERTREE66 作者yy:Nuvia和TSV是商量好的嘛?
谈一下M4 5.7可能发布的M4,分已经提前预测过了,不过,看起来我还是有点保守了。 so,G6:3600 15500 architecture就是A18 Pro的,可以放心,会有一些热,感觉应该不至于炸到A17 Pro和M3那样。至于AI,不用期待hardware上的改进,还是期待software吧
Exynos dieshot Exynos 2100 stepping:A0A1 Exynos 2200 dieshotstepping:A0A2Exynos 2300 dieshotstepping:A0A2修复一定的错误Exynos 2400 dieshotstepping:A0A0 特别鸣谢:@万扯淡 作者:LITTERTREE66 diesize: Exynos 2100 diesize 10.93x11.72mm=128.0096mm2 Exynos2200 e9925 diesize 9.69x10.80mm=104.652mm2 Exynos2300 e9935 diesize 10.53x10.93mm=115.0929mm2 Exynos2400 e9945 diesize 10.61x12.95mm=137.3995mm2 (很幸运,搞到了废案的Exynos 2300工程片,看上去2300完成度很高,估计是yield问题或者power压不住导致最后被砍)
谈一谈X5 ARM Cortex-X5有点意思。首先先解决X4的frontend和backend的空转,frontend这块,fetch和BPU,BPU靠double capacity给整体提4% IPC。rename&issues,搞一搞2%,backend那块,LSU+2%,FP靠SME做4*256bit SMID,提个8%,看看能不能凑出来15-20% IPC improve。
TSV-130(我自己起的名字)架构图 Stepping:B1A0 修复了一定的错误,增加了细节。感谢作者:@LITTERTREE66
发现好像根本发不出来A18 Pro和M4的预测 发不出来……
A18 Pro&M4 A18(2+4+5) A18 Pro 2*Tahiti(3.98GHz)+4E-Core(2.32GHz) 6*Apple 10 family GPU(1398MHz) 16core ANE(40tops int8) G5:2300 7150 G6:3300 8800 single core power:6.5W multi core power:12.3W GFX Aztec 1440P:83 3D Mark WLE:5100 GPU power:10.5W memory:LPDDR5X-8533? M4 4*Tahiti(4.2GHz)+4*E-Core(2.49GHz) 10*Apple 10 Family GPU(1398MHz) 16Core ANE(40tops int8) G5:2580 13240 G6:3500 15600 R24:157 828 single core power:7.3W multi core power:21W GFX Aztec 1440P: 3D Mark WLE:9820 GPU Power:16W memory:128bit LPDDR5X-8533 UMA
Kirin PC Chip 8*TSV-130(2.5GHz) Maleoon 920 10cu Ascend(big+lite 2+2) up to 32GB LPDDR5-6400(128bit)100GB/s up to 2TB SSD 3*USB-4 GB6:1580 11640(power:30W) GB5:1130 8765 R24:72 680 1695 3D Mark WLE:6490(power:20W)
density data 鸣谢kk@Kurnal
9010超大核初步测试结果 AndSPEC17(TSV-130) int 3.67 3.82W FP 6.44 4.74W TSV-130 int IPC 1.595 FP IPC 2.8 X3 int IPC 2.125 FP IPC 3.375 X2 int IPC 1.775 FP IPC 3.05 结论:可能打平X1,不如X2,远不如X3。 (注暂时称TSV-130为9010新超大核名称。) (附带TSV-130初步架构图)
首页
1
2
3
下一页