小tree_666
小tree_666
关注数: 330
粉丝数: 595
发帖数: 3,458
关注贴吧数: 43
有点意思的国产ARM芯 国产ARM PC Chip,ARM V9.2-A,配DSU-120,估计8*X4+4*A720?GPU有点少,Lmm MC10。 楼下补图。
我觉得,吹Oyron之前先明确一下这是什么东西。一个大部分p 我觉得,吹Oyron之前先明确一下这是什么东西。一个大部分part原封不动抄袭四年前Firestorm的u-arch,在2024年碰瓷新锐u-arch,本身就是一种不要脸行为。更何况这款u-arch在抄袭部分仅仅发挥出Firestorm的水平,例如Front-end part的BPU,Fetch。而自由发挥的部分,例如LSU,Prefetcher。这些东西表现打平甚至不如X3。这样一坨玩意,靠着4.3GHz的超高频,超过12W的高功耗碰瓷。我不管你1.5做成啥样,至少1.0就是这样的东西。抄袭就是抄袭。不如人就是不如人。不论是FP找理由还是怎么开除任何不利于赢的benchmark。事实是这东西就是个20年的u-arch。至于什么FP有利游戏的神论。但凡有点基础的人都不敢这么想。 我回想起去年,分支预测都能打错字。以及神话威廉姆斯三世。真的很可笑,团队的努力看不见,只知道神话某人,自己去做一个高性能乱序超标量的架构就老实了。
LIama3 405B 两台M3M 128GB就能跑了,我觉得可以期待一下M3 Ultra了,毕竟支持最高512GB的memory
预测一下国产俩玩意 New Kirin,你米字研芯 都1+3+4, Kirin大概率TSV-130big+TSV-130middle+A510 米:X4+A720+A520 这俩CPU多核都能做到强于8 Gen2一点,你米单核会比Kirin高。
浅谈A18 Pro与M4高阶 听说吧里的果粉好像对Apple GPU有着莫名的期待?那好吧,我预测A18 Pro 6c Apple 10 GPU 1.47GHz(M4同款的)预计peek +20%,持续+15%。SNL举例,可能极限就在2000-2100,最多不过2160(10.5-11W)average在1800。A18的5c的话,perf打平A17 Pro,功耗低一些,可能8-9W? 高阶的话,寄希望模具压得住1.6GHz吧,GPU的size没动。Pro会有一点surprise
Zen5架构图 stepping:A0A0 (作者yy:好活,multi decode cluster配SMT,性能好不好不知道,反正挺有意思的)
绝区零有点抽象啊 看jkw给的这个占比,绝区零吃frontend的perf还有memory bandwidth,bandwidth我不好说林檎,但是林檎u-arch的frontend的perf非常强,那么林檎表现好就能理解了。
恭喜新任吧主上任通吧 @子衿2.0 恭喜新任吧主上任,我相信在新任吧主领导下,通吧氛围可以更加祥和。
哎,谁能想到啊 怎么会这样
浅谈一下Nuvia Oyron 前端这块。BPU基本完全照抄,按理来说1k-entry L0 BTB配3-6k-entry的L1 BTB,就会有更好的表现,哎我们高通有自己的想法,直接2048-entry的L0 BTB,一旦溢出就得奔L1i去了。为什么是L1i,coupled design小子。直接把latency拉大,增大bubble。predictor更乐,直接全部照抄,size,feature也抄。抄也不看看生态,IJP在Apple那可能不咋重要,但是在安卓,windows这块,28%的Branch Miss都源于IJP,你高通拿着砍的只有2个table的ITTAGE,过了2 Target Number就出现performance的严重下滑。RAS还行吧,手机电脑16-32entry就够,Oyron给48entry。哦对,抄了这坨Apple的BTB design,fetch size上限就是16wide,成功锁死上线,f**k good job。 next,ROB,我们都知道ROB是register搭的,big capacity是会影响area,power的,然后给650entry。给大ROB有个前提是Branch Miss要低,不然一次清空有你好受的。当然大的ROB肯定对性能有帮助,不要看Firestorm 330entry,Donan-P 400entry,人家玩的是Coalesced ROB。1条能合并7条instructions。 想到啥再写啥吧,奉劝股东们,认清现实。我自己也写了文章,放在酷安,有兴趣可以看看(不要脸的推销文章是屑)
Oyron架构图 Stepping:A1B0
WWDC DAY2 DAY2有关AI的方面就多了起来,对ANE的quantization做了改进,用SD做的例子。Core ML进步还挺大。哦对,Apple还提了有关Apple GPU训练AI的事情,但不是Today。 rt
看了一下Apple Intelligence WWDC Day 1的Platforms State of the Union的Apple Intelligence部分,很有意思的一些东西,例如端测3B SLM,MoE(没听清是否有),4bit量化,再用ANE的FP16跑。估计得占个1.5-2GB,然后AI Cloud也用Apple Silicon(M2U)做推理。最主要的Mac用MLX做AI的训练,wow amazing。楼下附图吧。
M2U再就业 卖不出去的M2U拿去做AI推理服务器,明年再换M4U
intel架构图 P-Core stepping:A1B1 E-Core stepping:A1B1
标题五个字 架构图又被吞了
Samsung Exynos+Google Tensor dieshot picture1-3 is Samsung Exynos 2200-2400 Exynos 2200 dieshot stepping A0A2 Exynos 2300 dieshot stepping A0A2 Exynos 2400 dieshot stepping A0A3(修复了cache标注错误) Exynos2200 e9925 diesize 9.69x10.80mm=104.652mm2 Exynos2300 e9935 diesize 10.53x10.93mm=115.0929mm2 Exynos2400 e9945 diesize 10.61x12.95mm=137.3995mm2 picture4-6 is Google Tensor G1-3 Tensor G1 dieshot stepping A0A0 Tensor G2 dieshot stepping A0A0 Tensor G3 dieshot stepping A0A0 Google Tensor G1 diesize10.52x10.71mm=112.6692mm2 Google Tensor gen2 diesize 10.68x10.70mm=114.276mm2 Google Tensor G3 die size 10.71x12.62mm=135.1602mm2
ARM X925,A725架构图 stepping:A0A0
ARM新一代公版架构 如图,楼下更新 Cortex-X925和A725,X925有up to 3MB L2 cache,引入SME陪Apple刷分
ASML Hyper NA EUV IMEC ITF World 2024,ASML画了0.75NA EUV的饼,还有2DFET
Kirin 9010 diesize:116.818702 dieshot:还没
M2 Max SNL 如图 楼下补power
M4 P-Core架构图 看起来我还是准的,不过LSU错了,是分开的3ld 2st
Donan Voltage rt P-Core还有1.15V的4.512GHz的档,看起来得Mac来了。 图源:asto
重新预测一下New Kirin 以前预测太早了,变化还挺大。 Kirin 9100(?) CPU:1+5+2/2+4+2 (TSV-130+TSV middle+A510) (2.8+2.2+1.8) GPU:Mallone920 6CU NPU:Ascend middle+little 1+1 Modem:balong6000 SMIC:N7++(N+3)? benchmark G5:1400 5600 G6:1750 5800 CPU Power:5.2W 11.3W GFX Aztec 2K:41fps 3D Mark WLE:2100 GPU Power:8W
Apple Donan P-Core 架构图 stepping:A0A1 楼下补图
再谈M4和A18 Pro Apple在这代arch引入了SME,G6上面刷分刷的还挺不错的,但是我还是要泼冷水,SME通过FP的刷分带来了7% IPC improve,arch上改进了execution unit design,大概1% IPC improve,PA尽力了,IPC确实难提升。不如PD去给你OC,OC到4.4GHz,4.5GHz。 再说说SME,SME就是Apple PA带着ARM做的基础是从AMX来的,当然,M4,A18以后就SME ISA替换AMX ISA了,但是AMX hardware还在,SME支持256byte的FP instruction。在arch上其实就可以做不止以前NEON的128bit的FP,可以往256bit去做,毕竟SME支持256byte呢。(你可以把SME理解为ARM阵营的AVX512)至于power…… 最后说说A18 Pro,一句话,M4能跑3800≠A18 Pro能上3500,iPhone压不住的。对了M4的高阶会加核,SME越加核可能会衰减哦,香槟别开太早
我说什么来着 iPad Pro跑分来了 4.41GHz 3707 14523 这不爆杀X Elite?,而且有可能引入SME了,毕竟3700
预测一个小米自研SoC X4+A720+A520 1+3+4 3.0GHz+2.5GHz+2.0GHz Mali G720 MC7/10 1.3GHz G5:1530 5200 G6:2010 5100 single core power:4.8W multi core power:9.5W GFX Aztec 2K:51/72fps GPU power:8.6W/11.8W (据不可靠消息,这是小米自研的,没外援) TSMC N4P LPDDR5X-8533? Modem:MTK M80(外挂) Wi-Fi:Boardcom?BCM4388?(纯猜,反正不是高通)
每次到重要时候就吞贴 look wider decoder and execution engines so 10wide decode? 5FP?4ld?3st?
谁说M4没改arch的 请看keynote wider decoder and execution engines 所以,10wide decode 12ALU? 5FP?4ld?3st?
**苹果,靠 **啊
M4来了。 怎么讲
坏了,你通吧又夹我图 坏了,我的架构图又被夹了,怒了,其他平台发吧。
Nuvia Oyron架构图 架构图stepping:B0B0 (cache是由已知爆料推测) 作者:LITTERTREE66 作者yy:Nuvia和TSV是商量好的嘛?
谈一下M4 5.7可能发布的M4,分已经提前预测过了,不过,看起来我还是有点保守了。 so,G6:3600 15500 architecture就是A18 Pro的,可以放心,会有一些热,感觉应该不至于炸到A17 Pro和M3那样。至于AI,不用期待hardware上的改进,还是期待software吧
Exynos dieshot Exynos 2100 stepping:A0A1 Exynos 2200 dieshotstepping:A0A2Exynos 2300 dieshotstepping:A0A2修复一定的错误Exynos 2400 dieshotstepping:A0A0 特别鸣谢:@万扯淡 作者:LITTERTREE66 diesize: Exynos 2100 diesize 10.93x11.72mm=128.0096mm2 Exynos2200 e9925 diesize 9.69x10.80mm=104.652mm2 Exynos2300 e9935 diesize 10.53x10.93mm=115.0929mm2 Exynos2400 e9945 diesize 10.61x12.95mm=137.3995mm2 (很幸运,搞到了废案的Exynos 2300工程片,看上去2300完成度很高,估计是yield问题或者power压不住导致最后被砍)
谈一谈X5 ARM Cortex-X5有点意思。首先先解决X4的frontend和backend的空转,frontend这块,fetch和BPU,BPU靠double capacity给整体提4% IPC。rename&issues,搞一搞2%,backend那块,LSU+2%,FP靠SME做4*256bit SMID,提个8%,看看能不能凑出来15-20% IPC improve。
TSV-130(我自己起的名字)架构图 Stepping:B1A0 修复了一定的错误,增加了细节。感谢作者:@LITTERTREE66
发现好像根本发不出来A18 Pro和M4的预测 发不出来……
A18 Pro&M4 A18(2+4+5) A18 Pro 2*Tahiti(3.98GHz)+4E-Core(2.32GHz) 6*Apple 10 family GPU(1398MHz) 16core ANE(40tops int8) G5:2300 7150 G6:3300 8800 single core power:6.5W multi core power:12.3W GFX Aztec 1440P:83 3D Mark WLE:5100 GPU power:10.5W memory:LPDDR5X-8533? M4 4*Tahiti(4.2GHz)+4*E-Core(2.49GHz) 10*Apple 10 Family GPU(1398MHz) 16Core ANE(40tops int8) G5:2580 13240 G6:3500 15600 R24:157 828 single core power:7.3W multi core power:21W GFX Aztec 1440P: 3D Mark WLE:9820 GPU Power:16W memory:128bit LPDDR5X-8533 UMA
Kirin PC Chip 8*TSV-130(2.5GHz) Maleoon 920 10cu Ascend(big+lite 2+2) up to 32GB LPDDR5-6400(128bit)100GB/s up to 2TB SSD 3*USB-4 GB6:1580 11640(power:30W) GB5:1130 8765 R24:72 680 1695 3D Mark WLE:6490(power:20W)
density data 鸣谢kk@Kurnal
9010超大核初步测试结果 AndSPEC17(TSV-130) int 3.67 3.82W FP 6.44 4.74W TSV-130 int IPC 1.595 FP IPC 2.8 X3 int IPC 2.125 FP IPC 3.375 X2 int IPC 1.775 FP IPC 3.05 结论:可能打平X1,不如X2,远不如X3。 (注暂时称TSV-130为9010新超大核名称。) (附带TSV-130初步架构图)
Tensor G4 1+3+4 X4+A720+A520 (3.1+2.6+1.95) G6:1850 4800 WLE:2500 GFX 1440P:38fps efficiency+10%
Apple S8,S9 SiP dieshot dieshot stepping:A0A1 S8 diesize:5.40x7.37=39.061mm2 S9 diesize:5.70x7.27=41.439mm2 (图一:S8,图二:S9)
林檎恐被拆分 通吧的果粉通批互撕之前,还是看看你果还保得住不。
New Kirin预测 New Kirin CPU unit:2*P-Core TSV-130 3.0GHz(6/7wide decode 5ALU,5FP,2load 2store L1i 128KB,L1D 64KB L2 1MB) 6*E-Core TSV-130lite 1.8GHz (3/4wide decode 2ALU 2FP 1store 1load L1i 64KB L1D 32KB L2 256KB) L3 Cache 8MB GPU unit:MaLiang 920 6CU 750MHz (GPU L2 cache 1MB ) SLC Cache 6MB NPU:New Ascend NPU(1big+1small) ISP:Kirin ISP 8.0 Modem:balong 6000 SMIC N5 single core:G5:1400,G6:1800,Power:5.2W multi core:G5:4600,G6:4800,Power:12.4W GPU:GFX aztck 2K:54 曼哈顿3.1 1080P:188 3D Mark WLE:2800 Power:8.5W
更新D9300 dieshot dieshot stepping:A0A4 底图:@万扯淡 标注:LITTERTREE66 diesize:10.88x12.9=140.352
Apple可真是大言不惭 本地AI都没有,别人的AI拿过来吹自己AI强,第一次被不要脸到了呢
A17 Pro dieshot+coresize 在kk(@Kurnal )还有万扯淡的帮助下,总算是见到了A17 Pro的真die。数据都在下图。
猜个小米的自研SoC X3+A715+A510,Mali G720 MC7,TSMC N5。性能比8+强一点。应该不会去量产,毕竟收不回投入。
A17 Pro翻案 TSMC论文注水严重啊,Techinsights扫A17 Pro的晶体管就17b,结合113平方毫米diesize,那密度就150mtr,N4密度143mtr,这么说N3B真就提升个寂寞,那么这么说,Apple 9的面积效率就不算很拉。 为什么这么说,N3E官方标注是1.3x N5,N4是6%面积节约 N5,所以N3e对比N4 实际上就是M2P变化。并且林檎有考虑过2-1Fin,但有可能考虑后只用了2-2Fin。这点等我收到A17 Pro decap就知道了。
Exynos 2400 我看就S24,24+的欧版,中东,韩版,东南亚,南美洲,非洲,大洋洲用,性能还是可以的,就看功耗了。
8 Gen3 diesize 8 Gen3 diesize:137.32平方毫米
Apple Vision Pro发售临近 1.19预售,2.2日发售
K9000S,马良910面积效率 我最近发现,马良910的面积效率好像比老黄还高,华为的GPU设计实力不差啊。
更新9000SL 1+2+3 TSV big+TSV middle+A510
Kirin 830 Geekbench 5 被778G吊打秒杀。
Apple发布MLX 昨天林檎发布了自己的深度学习框架MLX
首页
1
2
3
4
下一页