小tree_666的个人资料

66锐评—《Oyron3—黔驴技穷》预计不晚于今年年底更新作者yy：越往细测，发现问题越大

Oyron 3 被2cycle的BPU吓哭了正常TAGE和ITTAGE需要3cycle出结果，被这个2cycle的BPU吓哭了，吧友们

MatePad Edge rt X90砍规模加部分降频版 X90：4*2.316GHz Linxi Big+4*2.009GHz Linxi Big-e+2*2.05GHz Linxi Middle。 X90e：3*2.07GHz Linxi Big+3*1.85GHz Linxi Big-e+2*1.805GHz Linxi Middle 注1：Linxi Big-e是指X90的中大核，与其大核定位为ARM Cortex-X4与X4m的关系，由于华为名字太乱，我个人用该自创名字指代。注2:Linxi Big与Middle均为9010上同款架构。注3:X90e为自创名，指代X90砍规模加部分降频版。

9030 9030 Pro 9030 Max 9030 Pro Max

Apple dieshot A19 Prodieshot stepping：B1A0 B1A0更新日志： 1.修复了Neural Accelerator位置，更换了新的底图。 2.修复了P-Core CPU L1i Cache与L0 BTB，Trace Cache位置。 diesize:8.03x12.29=98.6887mm2 M3 Pro dieshot stepping：A0A0 diesize:13.77x15.92=219.2184mm2 M2 Pro dieshot stepping：A0A0 diesize:20.77x14.19=294.7263mm2 附录：A19 Pro各模块面积（fig.4）鸣谢：底图@万扯淡，模块面积@Piglin

Apple N1 N1 Diesize：6.29mm x 4.42mm=27.8018mm2 （dieshot于本月晚些时候发布）

标题五个字今天给大家看点好看的东西

M5考前密押懒得发了，感觉官网上都挺全的，没啥需要说的了。

字少事多。

Oyron前瞻都不看吗 Oyron前瞻都不看吗

intel P+E-Core架构图 Cougar Cove P-Core stepping：A1B1 Darkmont E-Core stepping：A1B1 作者yy：和ARM一样好画，几乎没什么大改动，E-Core支持2-taken，P-Core修了BPU，具体表现如何还得test，哦，还有 Cougar Cove 1.5 * TLB。工艺上18A CPU+NPU+ME，intel 3 小核显，N3E 大核显，N6 IO。18A……，Fmax应该不太行，efficiency看着还行，到时候看看。

晚上随便聊聊最近写两篇文章，不免的感叹，在体系结构日益没活的今天，守住底线，把power提升的指标给新的architecture技术，比单纯的OC更重要，或许这个新的架构技术可能是value prediction，或许是Ahead Prediction，最终在CPU上实现出来IPC没有论文上畅想的那么高，但至少我们又向更极致的架构迈进了一步。某厂打开了超频战争的序幕，这真的是体系结构的未来吗？如果某厂能够静下心，挑近几年ISCA，HPCA的技术实现几个，我相信风评不会差。可是呢，超频代替思考，分数直通大脑，功耗是不管的，跑分是要赢的。这和做SoC的初衷完全违背了，我记得17-19年，高通还在用ARM公版，虽然性能一般，但是省电啊。尤其Kirin 980、990，虽然我不是花粉，但我确实要承认，性能够用，但是足够省电，那时候A系就是反面教材，跑分高有什么用？你功耗高啊。自从21年以来，ARM Cortex-X发布以来，安卓性能追上来了，功耗呢？比Apple都高很多了。这真的是手持移动设备能承受得了的吗？近一两年来x86和ARM的u-arch，intel提前撇垃圾桶，这真没得救，AMD的front-end，double-front-end，双前端，思想来自30年前的paper——Multiple-Block Ahead Branch Predictors。通过这种方式实现2-taken，非常的巧妙。 ARM公版C1-Ultra……改了L1D Cache的capacity，一般这玩意是不动的，估计是把L1D动了，连带着LSU，prefetcher带翻车了，ARM给cache做细颗粒度的cache替换算法，因为会增加power，所以万年64+64。但是现在变成64+128，或许这就是原因。 Apple的话，Donan-P的SFB（short forward branch）已经取消了，这个2-taken的实现效果和泛用性不佳。现在Thera-P，已经是Trace Cache，效果和泛用性非常好，up to 3-taken。之前Apple的CPU不支持2-taken，这是很致命的，在日常的workload中，按照一般3-4条指令一次跳转，两三次跳转一个taken来算的话，基本上让超过6-wide的部分用处不大了，这个还是挺要命的，没有2-taken只会让Apple Decode Width锁在10wide（即使现在解决了这个问题我认为Apple大概率还是会继续维持10wide一段时间，原因就是加宽带来的IPC提升几乎没有甚至开始反向提升）。还有Avalanche引入的LAP（load address prediction）、LVP（load value prediction），这些都是不错的架构技术，并且这几年Apple一直大改LSU，使得LSU的性能变得相当的强，而且在即使支持ARM MTE基础上的Apple MIE安全ISA，也没有太多的性能的衰减，开了可能就-0.5%吧。最后就是高通，没啥说的，就目前测出来的结果，Oyron3就是个杂交产物。Coll-P的decode width加上依然是Firestorm的back-end，然后祖传超频超到死，乐，听说BPU有改进，到时候慢慢看怎么改的。说实话，华为的u-arch水平就是比高通好，要不是制裁，说不定能看到华为压高通一头的表现。华为的u-arch总结下来就是平庸，但这不是贬义，反而是褒义，没有突出的地方就代表没有短板，那么自然就不会差。而且华为在借鉴国际先进水平的技术的同时有自己的思考，decoupled front-end，一看就是，server下来的。所以总结下来，在体系结构日趋没活的今天，坚持住底线的厂商应该获得更多的赞誉和支持。以超频为己任的厂商应该感到耻辱。这就是我晚上的想法，可能看着很可笑，个人的力量没有办法左右大厂的规划，但这不代表他们就是对的，每个人应该有独立思考的能力，我们应该知道自己要什么，而不是厂商给什么，厂商就是对的。

标题五个字

OK，u-arch小课堂更新完了，我看看整体的反馈如何，再决 OK，u-arch小课堂更新完了，我看看整体的反馈如何，再决定接下来是否还在贴吧更新硬核文章系列。

66的u-arch小课堂——在实际能量约束下的提前分支预测写在开头，假期比较忙，一直没有时间写新的文章，所以拖更了这么久，这次会一次更两章，把上次假期的拖更补回来，还是一样，由于本人是新手，文章的疏漏之处还望大佬们海涵。那么今天我们来看看ISCA25的论文——《Enabling Ahead Prediction with Practical Energy Constraints》。那么这是什么呢？接下来的文章会给你一个解答。不过首先，我们考虑一件事情，Ahead Predict 的动机与必要性。我们之所以要做 ahead predict，本质是在ahead pred的路径仍然是关键路径之外，预先把多级分支预测（L0/L1 → L2/TAGE/Loop → ITP）的长周期算出来，用零延迟的提示（hint）去喂主取指通道，从而掩盖慢级预测带来的前端气泡。按流水线分解看：PCGen → BTB/L0（≈1c）→ L1 dir/target（≈1–2c）→ L2/TAGE/Loop/ITP（≈3–6c）→ Align/Decode → Rename → Dispatch。一旦 L1 未命中落到慢级预测，短流水线（10–12 stages）会立刻暴露停顿：IF/ID 带宽被白白浪费，后端可用宽度也被低效喂饱，IPC 直接损失。举例：若分支占比 ~20%，其中 ~10% 需落到 L2（约 2%/inst），而 L2 返回需 5 拍，则平均增加 0.02×5 = 0.10 CPI 的前端开销；对目标 CPI≈0.70 的中等宽度设计，这一项就可能带来 ≈12–15% 的 IPC 下降。Ahead predict 通过在副通道“超前滚动 PC”，提前计算方向与目标并缓存为可即取的 hint（如影子预测队列/轨迹缓存、与 I$/BTB 预取协同等），把“长周期放到后台、短路径零等待”，显著恢复前端利用率与 IPC。 1. 提前分支预测的原理、挑战及历史背景提前分支预测（Ahead Prediction）的概念：提前分支预测是一种为解决分支预测延迟问题而提出的技术。传统的分支预测在预测某一分支时，需要利用该分支自身的程序计数器（PC）和当前可用的分支历史来查找预测信息。然而，高精度的分支预测器（如现代大型TAGE预测器）通常需要多周期才能产生结果。多周期延迟会降低处理器前端取指的吞吐率，每增加一个周期的预测延迟，性能就显著下降。为了隐藏这种预测延迟（prediction latency），Ahead Prediction让预测器提早数个分支开始工作：不使用当前分支的前序结果，而使用当前时刻可得到的历史和PC，直接去预测“未来的”某个分支。例如，跳过当前的N个分支，直接预测第N+1个分支，这样预测工作可提前N个分支进行，在真正需要该预测时（即取到该分支时）预测结果已经准备好，从而掩盖多周期的延迟。面临的挑战：提前进行预测意味着缺失中间N个分支的实际方向信息。由于预测时刻比实际执行提前，这N个分支尚未被取指或预测，其走向（Taken/Not taken）未知。传统基于历史的预测算法需要这些中间分支结果来组成正确的历史模式，如果缺少它们信息，预测准确度会下降。更严重的是，同样的“提前历史”（Ahead History，即当前可用的全局历史）和PC，可能对应多个不同的未来控制流路径。换言之，用当前历史去预测一个将来的分支时，很难知道这个预测对应的是哪一条具体的路径。当不同路径的分支模式差异较大时，如果只给出一个预测值，可能会因为混叠（aliasing）导致严重失准。这一现象可视为一种特殊的混淆：并非传统意义上由于哈希冲突导致的混淆，而是由于提前历史信息不足导致预测器无法区分不同未来路径所需的预测。历史背景：多块提前（Multiple-block ahead）分支预测的思想由来已久。早在1996年，Seznec等人在ASPLOS提出多块提前分支预测（Multiple-Block Ahead Branch Predictors），尝试在一次取指周期中预测多个基本块。随后2003年，Seznec和Fraboulet进一步探索了Ahead Pipelining技术，将取指地址生成前移数拍，以隐藏延迟。这些研究表明，通过在分支预测流水线中引入前瞻阶段，可以一定程度上缓解预测延迟瓶颈。然而，当时的实现复杂度和资源开销使这类方案难以在工业界直接采用。2007年，Ishii在JILP分支预测大赛特刊中提出“提前计算的融合两级分支预测”，试图将Ahead预测思想与传统两级预测器融合。此外，Jiménez等人也在2005年研究了逐段线性分支预测和更复杂的感知器（Perceptron）预测，但主要侧重提高精度，对延迟问题亦有所关注。总体而言，“提前预测”作为概念被提出多年，但因实现代价高昂而未成为主流。

标题五个字我看吧友们对我的u-arch小课堂不咋感兴趣，所以我也不知道Ahead Prediction的文章需不需要发，看看吧友们的反馈吧。

谈谈AMX/SME 我看吧里有些还不太了解的人觉得SME只是用来刷分的，这句话并不假，只不过少了很多句话。首先，SME是Apple带着ARM把自家AMX的private ISA做成了shared ISA，成为了ARM-V9.2的扩展指令集，这代表着对于安卓SME是可选项而不是必须项。其次AMX是2019年Apple在Cebu上引入的矩阵运算单元，毕竟M means Matrix。在Ellis上翻了4倍规模引入了P/E-AMX，在Donan，Tahiti上正式转变成SME，但是其底子依然是AMX。 ARM和Apple类似物（Oyron）对SME的实现方式不太一样，Apple类似物顾名思义就是和Apple使用同样的实现方式，有P/E-SME，其dieshot/layout和Ellis时期的AMX非常相像。ARM就直接给SME挂DSU上，事实上从这张图能看出（图1，图2）SME/AMX其实就是另一个小的CPU，只不过被特化了只用于Matrix的运算。从这块我们也能倒推出来，其实Apple的AMX也就是个小的CPU。对于Apple来说，有了SME之后，他们就不怎么需要SVE2来处理长度超过NEON长度的FP instructions，超过了就撇AMX里去，反正那里支持256byte。扯远了，总之Oyron的SME实现和Apple是和Apple很接近，但是ARM就有些抽象，即没高通规模大，也没高通的实现好。最后我们来聊聊SME的用途，它真的只是用来刷分的吗？我的回答是，是，也不是，安卓我不知道会用来干啥，但是Apple的用途有很多，例如Matlab的加速库可以调用AMX，这是比较出名的，还有一些不怎么出名的让人感受不到的方面，例如ML，一些需要快速反应的小型ML就可以调用AMX，毕竟如果走CoreML去调用ANE，不仅功耗巨高，延迟也很大，完全没必要。再就是相机这一块，图像处理就会用到AMX，然后DSP，数字信号处理也用AMX，vector和Matrix运算，这个前面说过了，还有无损压缩也会调用AMX，然后就是iOS26的3D空间图像，也是调用AMX，如果调用ANE就没那么快了。总之，别成天说SME只能刷分，也不看看是谁家的SME，你感受不到也很正常，因为科技的进步是让你感受不到科技的存在。

D9500 dieshot diesize：10.88*12.92=140.5696mm2 dieshot stepping：A0A0 作者yy：这个ARM对SME的实现不如Apple和Apple类似物好找。

Apple虚假宣传 Apple自己宣传17Pro系列是7000系铝合金，但是金相看起来可不是7000系铝合金哦，好奇有多少人能够一块集体诉讼告Apple。

《Oyron3架构分析——黔驴技穷》《Ahead Prediction是什么——ISCA25论文分析》

自研失败:iPhone17全系采用骁龙X80基带 iPhone 17系列搭载高通骁龙X80调制解调器，苹果自研基带项目仍未成型，全系依赖高通方案。苹果通过“信任我”策略掩盖这一事实，但拆机视频揭示了真相。

首发日现场直击我在Apple静安，现在我有了17PM

今年考前密押如何？还是有一些遗憾，例如一些极限值没有给出，整今年考前密押如何？还是有一些遗憾，例如一些极限值没有给出，整体数据准确性还是差了点，嘛，小问题，不是高估就行，M5再见，Have a great day.

ARM Lumex C1-Pro架构图 stepping：A0A0 作者yy：依旧不需要改啥，不过今年有个有趣的module，CME Operation Block，这是一个新的C pipeline。 CME 是一条独立的“C” pipeline，用于承载发往 CME 单元的指令微操作（µOP）。在 C1-Pro 中，某些 Streaming SVE / SME（以及与之相关的连续型向量装/存）指令会标注使用pipeline “C”，表示这些操作由 CME 路径处理。优化指南的表头明确给出：“CME Operations Block — Up to 4 µOPs sent to CME”（最多每周期向 CME 发送 4 个 µOP）。在“Streaming SVE mode / SME”各表中，你会看到大量指令的 Utilized Pipelines 一栏含 “C”：例如 SME 模式下的连续装载/存储（ST1/LD1、非时序 STNT1/LDNT1、ZA/ZT0 存取等）均标注使用 L 与 C，即地址生成/访存仍走 L0/1，但操作被送入 CME（C）。常规乱序派发有各类管线的并发上限（S/B、M、M0、V0、V1、L01、ID 等）——这是 OoO 区域的规则；而 CME 路径的 MOPs “保持顺序（in-order）”，直接从重命名阶段送往 C 管线： “Dispatch of CME MOPs staying in-order are directly sent to the C pipeline. The C pipeline can receive up to 5 MOPs directly from the rename stage.” 也就是 C 管线每周期可从重命名阶段直接接收最多 5 条 MOP，随后在 CME Operations Block 内部再以“最多 4 个 µOP/周期”的速率向 CME 派发。

ARM Cortex X呸，C1-Ultra架构图 stepping：A0A0 作者yy：真好画，去年的改个L1D数据接着用

iPhone 17 Pro主板 RT

ARM发布新一代架构 rt

我建议发布会和官网的PPT还是别看这算了，根本不是拿benc 我建议发布会和官网的PPT还是别看这算了，根本不是拿benchmark算的，而是一个内部的综合测试，比较偏日常使用。benchmark以考前密押为准吧。

首先，A19的规模和A18一模一样，包括cache，A19 Pro的PLLC是8MB，ELLC 6MB，SLC 32MB，A18你们知道，然后DRAM在考前密押。GPU是引入Tensor Core了，但是发布会说的double FP16，意思是double FP16 ALU，并没有算Tensor Core，Tensor Core就支持TF32，FP16，BF16，int8。ANE多支持个FP8。 CPU的话，我暗示了这么久没人发现？front-end bandwidth的提升就是我之前写的Apple Trace Cache文章，支持2-taken甚至3-taken。然后C1X和N1这属于Wireless，我确实不知道。今年就这样，M5到时候再说吧。 Have a great day.

Apple Modem 不是，哪来的C1X啊？啊？还吊打X71？啊？还有N1？Wi-Fi？啊？

考前密押2025 OK，又到了一年一度的考前密押，时间真快啊，上次还是A18 Pro，那么好，废话不多说，我们来说说今年的A19 series。规模上来说，还是和往常一样，A19为2P+4E+5Core GPU，A19 Pro为2P+4E+6Core GPU，频率上今年有所变高，P-Core：4.25GHz，E-Core：2.6GHz，GPU：1.62GHz。说到DRAM，今年DRAM的升级不小，A19是LPDDR5X-8533 8GB，A19 Pro是LPDDR5X-9600 12GB（注：17 Slim的A19 Pro是5Core GPU，LPDDR5X-8533 12GB）。17使用A19，17 Pro，17 Pro Max使用满规格A19 Pro。接下来就是你们最关注的benchmark score，那么从CPU开始，A19 Pro还是挺强的，CPU在GB6，25度室温环境下是3850 10000，再就是我比较看重的SPEC17：int 11.64，FP 17.49（预测值）。CPU power今年有相应的提高，大概高了去年10-15%，是多少你们自己算去。 GPU是今年升级的重点，整体来说，SNL 2950，功耗大概率不高于上一代。Game perf +27%（左右，因游戏而异）。（注2:以上数据未开MTE，开MTE会-0.5% CPU perf，iOS Avaliable 默认开启MTE。）（注3:GPU为极限散热数值，实际分数可能更低）

标题五个字

考前密押预热多数细节因不可抗力因素删去。

标题五个字

NVIDIA Thor dieshot diesize：15.71*25.6=402.176mm2 dieshot stepping：A0A0 底图@万扯淡

Exynos 2500 最新跑分显示，Exynos 2500好像有点站起来了，CPU配置也挺强的，看上去像1*X930-3.8GHz，3*X930m-3.26GHz，6*A730-2.76GHz，配上自研GPU，看起来整体没怎么落伍啊，SF2工艺有点东西啊

乐子IMG+Google 白高兴一整，本来以为WLE打平A16很厉害，结果SNL只有1020分，A15 4c应该也就这样了，至于Ray Traceing的SBE，直接Vulkan版本不支持。属实幽默完了。 GB6基本就是对标A15。图是朋友的。我就黑五蹲了。

Tensor G5 G5 WLE，这个分差不多是A16的水平，还是可以的。

Tensor G5浅谈听说这玩意TSMC N3P做的，现在不好验证，姑且按N3E算吧。 rt，目前GB6能跑2300 6400，已经有Apple A15的水平了，可喜可贺，加上TSMC的工艺，能效比G4用的SF4要好很多了。现在最担心的就是GPU，IMG DXT 48-1536 MC1，好消息IMG打赢复活赛了，坏消息不知道Google写的明白驱动不。

Tensor G5确认使用IMG GPU rt G5为IMG DXT 48-1536 MC1

考前密押前瞻已经准备好了，不出意外依然是不晚于发布会前8小时今年是很特殊的一年，有惊喜就有惊吓，万事万物都有两面。

新iPhone外观泄露和爆料几乎一样。

猜一个GPU小丑是哪家输完高通又输ARM，然后今年连Samsung也输了，说不定明年输IMG

Exynos 2600首个跑分 rt

ASML发货第一台TWINSCAN EXE:5200B We see continued progress in litho intensity, particularly in DRAM, and the introduction of the TWINSCAN NXE:3800Ereinforces that momentum. Meanwhile, EUV adoption is advancing as planned, including High NA. This quarter, weshipped the first TWINSCAN EXE:5200B system. TWINSCAN EXE:5200B是ASML第二代0.55 NA高数值孔径EUV光刻系统，支持8 nm分辨率和高40%的成像对比度，大幅提升晶体管密度与良率。系统利用8g晶圆台和32g光罩台加速，可实现175–200片/小时的高吞吐量，相比上一代产能提高约60%。然而，单台售价4亿欧元，且设备复杂度高、供应周期长，乐观预计2026年底可交付约20台，维护与集成投入巨大。

第二弹：今年某A家的A芯为什么会很热呢，我认为首先DRAM的第二弹：今年某A家的A芯为什么会很热呢，我认为首先DRAM的power涨了很多（为了Apple Intelligence肯定要干的），其次，N3P的high freq efficiency很差，感觉power得涨15-20%，才能换5-6%的freq。

提前谈点N3P N3P是N3最后的process node，目前来看+6%的能效，+6%的density。我猜今年某A开头厂商的A开头芯片，我可以说，并不凉快，个人认为结合一体铝合金和VC，应该和A18 Pro的发热高一些？应该和A17 Pro比能好一点。如果你对日常发热很敏感的话，我推荐等N2。

Google Tensor G5 rt CPU最新分数。

Breaking News Samsung Z Flip 7全系Exynos2500 （我有点想整一台了）

未来属于AI 你果寄了

有点意思啊

终于忙完了总算忙完了，想一想接下来些什么文章

Minecraft官方光影 MC官方光影发布了，来看看各家的表现如何，我这个A18 Pro，全部拉满的情况下，感觉可能就20帧，看看吧友们的帧率

Apple C1 Modem dieshot Stepping：A0A0 diesize:6.20*6.42=39.804mm2（Modem） 6.23*6.54=40.744（RF Transceiver） N4+N6RF 作为对比，图三图四为intel XMM7660 Modem diesize：6.98*8.31=58.0038（Modem） 37.6142（RF Transceiver）作者yy：对比图5高通全家桶，Apple Modem目前的PPA挺烂的，除了save energy没啥优点，希望C2会有惊喜。特别鸣谢：@万扯淡（由于贴吧限制，无法发出图片，请移步B站或其他平台寻找LITTERTREE66）

现在来看，除了某些子项，X90靠SMT刷到超过M3的水平，基现在来看，除了某些子项，X90靠SMT刷到超过M3的水平，基本对上了吧

Ultra 双海思A5一英寸底。如果有XT也是9020，换C Ultra 双海思A5一英寸底。如果有XT也是9020，换COMS

Exynos 2500 如图，RDNA3.5 Mobile 8WGP，作为对比，图二为Xring O1的Imm G925 MC16，图三为Adreno 830。

总结WWDC WWDC看完了，新的界面挺好看的，就是不知道会有多费电，然后75%的功能有关Apple Intelligence，国区用不了，Mac比较重要的Metal4，得等过几天。Vision OS确实不错。基本也没啥了。确实今年是大更新，但是很多功能涉及Apple Intelligence。