小tree_666的个人资料

有点意思的国产ARM芯国产ARM PC Chip，ARM V9.2-A，配DSU-120，估计8*X4+4*A720？GPU有点少，Lmm MC10。楼下补图。

我觉得，吹Oyron之前先明确一下这是什么东西。一个大部分p 我觉得，吹Oyron之前先明确一下这是什么东西。一个大部分part原封不动抄袭四年前Firestorm的u-arch，在2024年碰瓷新锐u-arch，本身就是一种不要脸行为。更何况这款u-arch在抄袭部分仅仅发挥出Firestorm的水平，例如Front-end part的BPU，Fetch。而自由发挥的部分，例如LSU，Prefetcher。这些东西表现打平甚至不如X3。这样一坨玩意，靠着4.3GHz的超高频，超过12W的高功耗碰瓷。我不管你1.5做成啥样，至少1.0就是这样的东西。抄袭就是抄袭。不如人就是不如人。不论是FP找理由还是怎么开除任何不利于赢的benchmark。事实是这东西就是个20年的u-arch。至于什么FP有利游戏的神论。但凡有点基础的人都不敢这么想。我回想起去年，分支预测都能打错字。以及神话威廉姆斯三世。真的很可笑，团队的努力看不见，只知道神话某人，自己去做一个高性能乱序超标量的架构就老实了。

LIama3 405B 两台M3M 128GB就能跑了，我觉得可以期待一下M3 Ultra了，毕竟支持最高512GB的memory

预测一下国产俩玩意 New Kirin，你米字研芯都1+3+4， Kirin大概率TSV-130big+TSV-130middle+A510 米：X4+A720+A520 这俩CPU多核都能做到强于8 Gen2一点，你米单核会比Kirin高。

浅谈A18 Pro与M4高阶听说吧里的果粉好像对Apple GPU有着莫名的期待？那好吧，我预测A18 Pro 6c Apple 10 GPU 1.47GHz（M4同款的）预计peek +20%，持续+15%。SNL举例，可能极限就在2000-2100，最多不过2160（10.5-11W）average在1800。A18的5c的话，perf打平A17 Pro，功耗低一些，可能8-9W？高阶的话，寄希望模具压得住1.6GHz吧，GPU的size没动。Pro会有一点surprise

Zen5架构图 stepping：A0A0 （作者yy：好活，multi decode cluster配SMT，性能好不好不知道，反正挺有意思的）

绝区零有点抽象啊看jkw给的这个占比，绝区零吃frontend的perf还有memory bandwidth，bandwidth我不好说林檎，但是林檎u-arch的frontend的perf非常强，那么林檎表现好就能理解了。

恭喜新任吧主上任通吧 @子衿2.0 恭喜新任吧主上任，我相信在新任吧主领导下，通吧氛围可以更加祥和。

哎，谁能想到啊怎么会这样

浅谈一下Nuvia Oyron 前端这块。BPU基本完全照抄，按理来说1k-entry L0 BTB配3-6k-entry的L1 BTB，就会有更好的表现，哎我们高通有自己的想法，直接2048-entry的L0 BTB，一旦溢出就得奔L1i去了。为什么是L1i，coupled design小子。直接把latency拉大，增大bubble。predictor更乐，直接全部照抄，size，feature也抄。抄也不看看生态，IJP在Apple那可能不咋重要，但是在安卓，windows这块，28%的Branch Miss都源于IJP，你高通拿着砍的只有2个table的ITTAGE，过了2 Target Number就出现performance的严重下滑。RAS还行吧，手机电脑16-32entry就够，Oyron给48entry。哦对，抄了这坨Apple的BTB design，fetch size上限就是16wide，成功锁死上线，f**k good job。 next，ROB，我们都知道ROB是register搭的，big capacity是会影响area，power的，然后给650entry。给大ROB有个前提是Branch Miss要低，不然一次清空有你好受的。当然大的ROB肯定对性能有帮助，不要看Firestorm 330entry，Donan-P 400entry，人家玩的是Coalesced ROB。1条能合并7条instructions。想到啥再写啥吧，奉劝股东们，认清现实。我自己也写了文章，放在酷安，有兴趣可以看看（不要脸的推销文章是屑）

Oyron架构图 Stepping：A1B0

WWDC DAY2 DAY2有关AI的方面就多了起来，对ANE的quantization做了改进，用SD做的例子。Core ML进步还挺大。哦对，Apple还提了有关Apple GPU训练AI的事情，但不是Today。 rt

看了一下Apple Intelligence WWDC Day 1的Platforms State of the Union的Apple Intelligence部分，很有意思的一些东西，例如端测3B SLM，MoE（没听清是否有），4bit量化，再用ANE的FP16跑。估计得占个1.5-2GB，然后AI Cloud也用Apple Silicon（M2U）做推理。最主要的Mac用MLX做AI的训练，wow amazing。楼下附图吧。

M2U再就业卖不出去的M2U拿去做AI推理服务器，明年再换M4U

intel架构图 P-Core stepping：A1B1 E-Core stepping：A1B1

标题五个字架构图又被吞了

Samsung Exynos+Google Tensor dieshot picture1-3 is Samsung Exynos 2200-2400 Exynos 2200 dieshot stepping A0A2 Exynos 2300 dieshot stepping A0A2 Exynos 2400 dieshot stepping A0A3（修复了cache标注错误） Exynos2200 e9925 diesize 9.69x10.80mm=104.652mm2 Exynos2300 e9935 diesize 10.53x10.93mm=115.0929mm2 Exynos2400 e9945 diesize 10.61x12.95mm=137.3995mm2 picture4-6 is Google Tensor G1-3 Tensor G1 dieshot stepping A0A0 Tensor G2 dieshot stepping A0A0 Tensor G3 dieshot stepping A0A0 Google Tensor G1 diesize10.52x10.71mm=112.6692mm2 Google Tensor gen2 diesize 10.68x10.70mm=114.276mm2 Google Tensor G3 die size 10.71x12.62mm=135.1602mm2

ARM X925，A725架构图 stepping：A0A0

ARM新一代公版架构如图，楼下更新 Cortex-X925和A725，X925有up to 3MB L2 cache，引入SME陪Apple刷分

ASML Hyper NA EUV IMEC ITF World 2024，ASML画了0.75NA EUV的饼，还有2DFET

Kirin 9010 diesize：116.818702 dieshot：还没

M2 Max SNL 如图楼下补power

M4 P-Core架构图看起来我还是准的，不过LSU错了，是分开的3ld 2st

Donan Voltage rt P-Core还有1.15V的4.512GHz的档，看起来得Mac来了。图源：asto

重新预测一下New Kirin 以前预测太早了，变化还挺大。 Kirin 9100(?) CPU:1+5+2/2+4+2 (TSV-130+TSV middle+A510) (2.8+2.2+1.8) GPU:Mallone920 6CU NPU:Ascend middle+little 1+1 Modem:balong6000 SMIC:N7++(N+3)？ benchmark G5:1400 5600 G6:1750 5800 CPU Power:5.2W 11.3W GFX Aztec 2K:41fps 3D Mark WLE:2100 GPU Power:8W

Apple Donan P-Core 架构图 stepping：A0A1 楼下补图

再谈M4和A18 Pro Apple在这代arch引入了SME，G6上面刷分刷的还挺不错的，但是我还是要泼冷水，SME通过FP的刷分带来了7% IPC improve，arch上改进了execution unit design，大概1% IPC improve，PA尽力了，IPC确实难提升。不如PD去给你OC，OC到4.4GHz，4.5GHz。再说说SME，SME就是Apple PA带着ARM做的基础是从AMX来的，当然，M4，A18以后就SME ISA替换AMX ISA了，但是AMX hardware还在，SME支持256byte的FP instruction。在arch上其实就可以做不止以前NEON的128bit的FP，可以往256bit去做，毕竟SME支持256byte呢。（你可以把SME理解为ARM阵营的AVX512）至于power…… 最后说说A18 Pro，一句话，M4能跑3800≠A18 Pro能上3500，iPhone压不住的。对了M4的高阶会加核，SME越加核可能会衰减哦，香槟别开太早

我说什么来着 iPad Pro跑分来了 4.41GHz 3707 14523 这不爆杀X Elite？，而且有可能引入SME了，毕竟3700

预测一个小米自研SoC X4+A720+A520 1+3+4 3.0GHz+2.5GHz+2.0GHz Mali G720 MC7/10 1.3GHz G5:1530 5200 G6:2010 5100 single core power：4.8W multi core power：9.5W GFX Aztec 2K：51/72fps GPU power：8.6W/11.8W （据不可靠消息，这是小米自研的，没外援） TSMC N4P LPDDR5X-8533？ Modem：MTK M80（外挂） Wi-Fi：Boardcom？BCM4388？（纯猜，反正不是高通）

每次到重要时候就吞贴 look wider decoder and execution engines so 10wide decode？ 5FP？4ld？3st？

谁说M4没改arch的请看keynote wider decoder and execution engines 所以，10wide decode 12ALU？ 5FP？4ld？3st？

**苹果，靠 **啊

M4来了。怎么讲

坏了，你通吧又夹我图坏了，我的架构图又被夹了，怒了，其他平台发吧。

Nuvia Oyron架构图架构图stepping：B0B0 （cache是由已知爆料推测）作者：LITTERTREE66 作者yy：Nuvia和TSV是商量好的嘛？

谈一下M4 5.7可能发布的M4，分已经提前预测过了，不过，看起来我还是有点保守了。 so，G6：3600 15500 architecture就是A18 Pro的，可以放心，会有一些热，感觉应该不至于炸到A17 Pro和M3那样。至于AI，不用期待hardware上的改进，还是期待software吧

Exynos dieshot Exynos 2100 stepping：A0A1 Exynos 2200 dieshotstepping：A0A2Exynos 2300 dieshotstepping：A0A2修复一定的错误Exynos 2400 dieshotstepping：A0A0 特别鸣谢：@万扯淡作者：LITTERTREE66 diesize： Exynos 2100 diesize 10.93x11.72mm=128.0096mm2 Exynos2200 e9925 diesize 9.69x10.80mm=104.652mm2 Exynos2300 e9935 diesize 10.53x10.93mm=115.0929mm2 Exynos2400 e9945 diesize 10.61x12.95mm=137.3995mm2 （很幸运，搞到了废案的Exynos 2300工程片，看上去2300完成度很高，估计是yield问题或者power压不住导致最后被砍）

谈一谈X5 ARM Cortex-X5有点意思。首先先解决X4的frontend和backend的空转，frontend这块，fetch和BPU，BPU靠double capacity给整体提4% IPC。rename&issues，搞一搞2%，backend那块，LSU+2%，FP靠SME做4*256bit SMID，提个8%，看看能不能凑出来15-20% IPC improve。

TSV-130（我自己起的名字）架构图 Stepping：B1A0 修复了一定的错误，增加了细节。感谢作者：@LITTERTREE66

发现好像根本发不出来A18 Pro和M4的预测发不出来……

A18 Pro&M4 A18（2+4+5） A18 Pro 2*Tahiti（3.98GHz）+4E-Core（2.32GHz） 6*Apple 10 family GPU（1398MHz） 16core ANE（40tops int8） G5:2300 7150 G6:3300 8800 single core power：6.5W multi core power：12.3W GFX Aztec 1440P：83 3D Mark WLE：5100 GPU power：10.5W memory：LPDDR5X-8533？ M4 4*Tahiti（4.2GHz）+4*E-Core（2.49GHz） 10*Apple 10 Family GPU（1398MHz） 16Core ANE（40tops int8） G5：2580 13240 G6：3500 15600 R24:157 828 single core power：7.3W multi core power：21W GFX Aztec 1440P: 3D Mark WLE：9820 GPU Power：16W memory：128bit LPDDR5X-8533 UMA

Kirin PC Chip 8*TSV-130（2.5GHz） Maleoon 920 10cu Ascend（big+lite 2+2） up to 32GB LPDDR5-6400（128bit）100GB/s up to 2TB SSD 3*USB-4 GB6:1580 11640（power：30W） GB5:1130 8765 R24:72 680 1695 3D Mark WLE：6490（power：20W）

density data 鸣谢kk@Kurnal

9010超大核初步测试结果 AndSPEC17（TSV-130） int 3.67 3.82W FP 6.44 4.74W TSV-130 int IPC 1.595 FP IPC 2.8 X3 int IPC 2.125 FP IPC 3.375 X2 int IPC 1.775 FP IPC 3.05 结论：可能打平X1，不如X2，远不如X3。（注暂时称TSV-130为9010新超大核名称。）（附带TSV-130初步架构图）

Tensor G4 1+3+4 X4+A720+A520 （3.1+2.6+1.95） G6:1850 4800 WLE：2500 GFX 1440P：38fps efficiency+10%

Apple S8，S9 SiP dieshot dieshot stepping：A0A1 S8 diesize：5.40x7.37=39.061mm2 S9 diesize：5.70x7.27=41.439mm2 （图一：S8，图二：S9）

林檎恐被拆分通吧的果粉通批互撕之前，还是看看你果还保得住不。

New Kirin预测 New Kirin CPU unit：2*P-Core TSV-130 3.0GHz（6/7wide decode 5ALU，5FP，2load 2store L1i 128KB，L1D 64KB L2 1MB） 6*E-Core TSV-130lite 1.8GHz （3/4wide decode 2ALU 2FP 1store 1load L1i 64KB L1D 32KB L2 256KB） L3 Cache 8MB GPU unit：MaLiang 920 6CU 750MHz （GPU L2 cache 1MB ） SLC Cache 6MB NPU：New Ascend NPU（1big+1small） ISP：Kirin ISP 8.0 Modem：balong 6000 SMIC N5 single core：G5：1400，G6：1800，Power：5.2W multi core：G5：4600，G6:4800，Power：12.4W GPU：GFX aztck 2K：54 曼哈顿3.1 1080P：188 3D Mark WLE：2800 Power：8.5W

更新D9300 dieshot dieshot stepping：A0A4 底图：@万扯淡标注：LITTERTREE66 diesize：10.88x12.9=140.352

Apple可真是大言不惭本地AI都没有，别人的AI拿过来吹自己AI强，第一次被不要脸到了呢

A17 Pro dieshot+coresize 在kk（@Kurnal ）还有万扯淡的帮助下，总算是见到了A17 Pro的真die。数据都在下图。

猜个小米的自研SoC X3+A715+A510，Mali G720 MC7，TSMC N5。性能比8+强一点。应该不会去量产，毕竟收不回投入。

A17 Pro翻案 TSMC论文注水严重啊，Techinsights扫A17 Pro的晶体管就17b，结合113平方毫米diesize，那密度就150mtr，N4密度143mtr，这么说N3B真就提升个寂寞，那么这么说，Apple 9的面积效率就不算很拉。为什么这么说，N3E官方标注是1.3x N5，N4是6%面积节约 N5，所以N3e对比N4 实际上就是M2P变化。并且林檎有考虑过2-1Fin，但有可能考虑后只用了2-2Fin。这点等我收到A17 Pro decap就知道了。

Exynos 2400 我看就S24，24+的欧版，中东，韩版，东南亚，南美洲，非洲，大洋洲用，性能还是可以的，就看功耗了。

8 Gen3 diesize 8 Gen3 diesize:137.32平方毫米

Apple Vision Pro发售临近 1.19预售，2.2日发售

K9000S，马良910面积效率我最近发现，马良910的面积效率好像比老黄还高，华为的GPU设计实力不差啊。

更新9000SL 1+2+3 TSV big+TSV middle+A510

Kirin 830 Geekbench 5 被778G吊打秒杀。

Apple发布MLX 昨天林檎发布了自己的深度学习框架MLX