小tree_666的个人资料

66的u-arch小课堂为什么Apple Silicon在R24中这么强？如你所见，今天我们要讲的是，为什么，Apple Silicon在Cinebench R24中表现如此的强，连隔壁的X86都甘拜下风，尤其是M4，我看我们的贴吧老哥都跑上192了，简直是非常的厉害。首先我们需要明白R24是一个比较重LSU的一个benchmark，那么M4刚刚好大提升的就是这部分，那么今天我们引入我们的主题，LSU，LSU是CPU中很重要的一个部分，我们首先需要了解一下什么是LSU。LSU 是 “Load–Store Unit”（加载存储单元）的简称，是一个专门负责处理所有访存指令（即加载 load 和存储 store 指令）的执行单元。下面我将从多个角度详细介绍其功能和内部结构。1. LSU 的主要功能（1）执行访存指令LSU 主要负责将程序中发出的 load 指令和 store 指令送入内存系统进行处理。这包括根据指令中给出的基地址、偏移量等信息计算出实际访问的地址，并根据地址从缓存或主存中读取数据（load），或者将数据写回内存（store）。（2）地址生成与虚实地址转换为了确定内存中具体的位置，LSU 内通常会包含一个或多个地址生成单元（AGU）。AGU 负责执行简单的算术运算（如加法），将基地址与立即数或寄存器内容相加，从而计算出访问地址。与此同时，在采用虚拟内存的系统中，LSU 还需要将程序使用的虚拟地址转换成物理地址，这一过程一般依赖于 TLB（Translation Lookaside Buffer）来加速转换过程。（3）处理访存依赖和数据转发在现代高性能处理器中，指令往往是乱序执行的。LSU 不仅要确保各条访存指令按正确的顺序完成（即满足内存一致性和程序顺序要求），还需要解决因数据依赖产生的潜在冒险问题。例如，若一条 load 指令依赖于一条尚未完成的 store 指令，LSU 可能会通过“数据前向转发”（Store-to-Load Forwarding）的机制直接将 store 指令产生的数据传递给后续的 load 指令，从而降低延迟并提高流水线利用率。 2. LSU 的内部结构，LSU 内部一般设计有两个队列：（1）Load Queue（加载队列）与 Store Queue（存储队列）为了管理所有访存指令，（2）Load Queue (LDQ)：用于暂存所有待执行的 load 指令，在这些指令执行前，会先进行地址计算和依赖检查；（3）Store Queue (STQ)：用于记录所有 store 指令，特别是在乱序执行中，store 指令可能提前计算出地址和数据，但数据真正写入内存时需要保证按程序顺序提交。通过存储队列，LSU 能够检测 load 与 store 之间的依赖关系，并在可能出现数据竞争时采用转发技术。（4）地址生成单元（AGU）AGU 负责将load/store 指令中的地址计算任务具体化，结合基地址与偏移量，生成最终的内存访问地址。这一步骤对提高访存操作的效率至关重要。（5）与缓存/内存系统的接口LSU 是 CPU 内部执行单元与外部内存系统之间的桥梁。它不仅向缓存（如 L1 数据缓存）发出数据请求，而且还接收缓存或内存返回的数据。在缓存命中情况下，数据可以迅速从缓存传递给 CPU；而在缓存未命中时，LSU 会协调从更低级别内存中取数，同时管理等待和重排操作。总之，LSU（Load–Store Unit）是 CPU 中专门负责处理内存访问操作的执行单元。它通过内部的地址生成、Load/Store 队列以及数据转发等机制，确保 load 和 store 指令能够高效且正确地与内存系统交互。在支持乱序执行和高指令并行度的现代 CPU 设计中，LSU 的高效实现对于整体性能至关重要。这种设计既要求严谨的硬件逻辑，也需要在系统级别上考虑访存延迟、依赖检测以及缓存接口等多个方面，从而实现既严谨又高效的内存操作管理。这也就是我常说的，一个优秀的u-arch三要素，BPU，LSU，prefetcher，把这三个能够做好，才能达成performance和energy的最强。

我不要脸的宣传一下啊吧精华里的这个帖子，这个后面就作为66的u-arch知识小课堂，以后不定期更新，我想到啥就会讲一讲，我认为我们吧里不应该是对线和斗蛐蛐，大家也应该学习到一些知识。

Strarlink的DTC（Direct To Cell）技术，在不同国家用的频段不一样，那美国本土T-mobile举例，使用Band 2和Band 25的频段（DTC上行1910-1915MHz，下行1990-1995MHz），林檎我看全球版本基本都支持这个频段。所以，国行iPhone去美国也是能用DTC？

最近听说DeepSeek很火我拿A18 Pro先试试4bit quantization的7B的。然后在1.5B试试。

睡不着，想聊聊BP 晚上翻笔记发现了自己一堆BP的idea，但又不知道从何说起……

ARM Chiplet System Architecture rt

A18，A18 Pro，M4 dieshot A18 Pro dieshotstepping：A0C2 diesize：8.44*13.00=109.72mm2 A18 dieshot stepping：A0A0 diesize：7.84*11.79=92.434mm2 M4 dieshot stepping：B1D4 diesize:13.21*12.82=169.3522mm2 底图@万扯淡

哎wc，美国怎么这么坏啊 rt

标题5个字

平安夜当然要买Apple了（以后谁说性能无用的我第一个抽死他，亏死我了）

Ascend 910C 910C is double 910BDensification FP16 600TFLOPS，but NVIDIA H100 is 1PFLOPS，B200 is 2PFLOPS，B200满血2.5PFLOPS。（1PFLOPS=1000TFLOPS） next year 910D N+2，或许可以对标NVIDIA H100，但NV得Blackwell又有半代升级……

原来CN的technology这么强啊。还有不同的路线，可以不依赖advance node，简直太厉害了。

STX HALO GB6 GPU rt

breaking news rt

Breaking News 基辛格退休，intel将何去何从

New Kirin考前密押看个乐子 CPU： size：1+3+4 freq：2.5+2.15+1.6 TSV-130 （9010同款大核，OC至2.5GHz） TSV-130middle（9010同款中核） TSV Small （自研小核，2issues，OoO，对标Cortex-A73） GPU：maliang 4CU 850MHz

M4 dieshot stepping：A0A0 diesize:13.21*12.82=169.3522mm2

标题五个字预告

浅谈Oyron 2 BPU what can I say。这BPU还用说，Firestorm同款BPU。TAGE 80KB，ITTAGE 40KB，L0 BTB 2048entry。对这个规模不需要抱太大期待。看看图就知道不如X4水平。ARM的BP算比较一般的，如果放到和今年新出的新世代u-arch那完全比不了。像AMD的16K-entry L1 BTB以及Multiple-Block Ahead Branch Predictor。Apple增加table和BTB的BPU。intel……，额，这个不怎么能讲。前两家的BP都是有相当大的进步。当然肯定有人会问啊，BPU重要，咋Oyron表现那么好。很正常啊，力大砖飞，4.32GHz+3.52GHz。反正power不要了，靠不要脸去win还是能win的。当然还会有人说，架构师你又在信口雌黄了，Oyron 怎么可能抄Firestorm。如果你去翻我6月发的浅谈，那里的图，BPU的hash function都一样，only copy can do。还是那句话，u-arch三要素，BP，LSU，Prefetcher，得三者得天下。

M4 MacBook Pro来了 rt

标题五个字金盆洗手

M4的Mac Mini发布了 rt

M4 Mac来了首先是iMac搭载M4

M4 Mac来喽首先是iMac搭载M4。

Kirin 8000 dieshot stepping：A0A0 diesize：7.55*9.27=69.9885mm2 工艺：SMIC N+2（K9000S同款）

我想知道华为把Mate XT卖哪去了，西安咸阳线下全没货。怒了。（这手机我是真喜欢，今年维二喜欢的产品，一个是Vision Pro，另一个就是Mate XT）也不知道啥时候能买到。

M4高阶要来了下一周发布

这波我站ARM，断ISA授权可就太好玩了。加大力度

ARM计划取消对高通芯片的许可，双方争端加剧。ARM起诉高通，指控其2022年违反合约。

因一些不可抗力问题，M4高阶不会有考前密押，发布后会有真题解因一些不可抗力问题，M4高阶不会有考前密押，发布后会有真题解析

浅谈mini 你果辛辛苦苦攒了1年的A17 Pro硅渣。真是辛苦你果了呢。（M4高阶考前密押懒得发了）

晚间小谈。听说高通CEO说极客湾测的SPEC不对？我寻思你高通知道keynote发有驱动的Linux的SPEC，怎么就不把这个驱动发出来给别人复现了。学术界如果复现不了，对你的结果是可以质疑的。你既然说是特定环境那就把环境全部开源发出来，而不是在这叫唤。

A18 Pro dieshot stepping：A0A0 diesize：8.44*13.00=109.72mm2

看XE layout有感 what can i say？Qualcomm out！ XE比一下M3 Max，一个就是放大版mobile phone chip，另一个才有PC Chip的样子。先说说整体的floorplan，按理来说，应该把latency敏感的mod放一起，尽可能在distance上去做short latency，然后再让fabric去走四周。（整个顶层的摆放一开始会和design他们讨论很久确定十几种方案，接下来根据IP Core和other mod的area去进行调整。）然而，高通这玩意，还能说啥，只能说performance确实不是他们的目标，to be a joker，确实是目标。再看看Core，拿Coll和Oyron比一比，这Oyron有一点做high freq的样子吗，整个layout上mod的规整做的挺差的，再看看Zen5，只能说，Oyron真就是抄都抄不好。u-arch分析翻我以前发的东西。

考前密押的含金量还在上升考前密押的含金量还在上升

标题五个字

晚节保住了，考前密押挺准的，10月见

朝花夕拾朝花夕拾

临时更新（2）晚节保住了，呜呜

临时更新（1）发布会第二天我就说了cache被砍，但是看起来没人看见。还有，怎么会有人觉得A18是A18 Pro屏蔽来的，N3E的yield能屏蔽几个A18出来，这不现实。不如新开die，反正TSMC送了免费tape-out机会，不用白不用嘛。

浅谈A18 Pro 看起来考前密押还是有些乐观，目前的分基本上3400 8400，看起来就是极限了。至于3450 9000，这就真是only liquid nitrogen can do了。悬着的心还是似了，晚节还是不保了。

吓死我了，差点晚节不保 rt，密押准吧

浅谈考前密押发布会看完了，考前密押基本准吧。忘了补充一点，A18是一个新die，cache（L2，SLC）砍了。Pro的cache依然保持不变。

考前密押来了首先，P-Core：接近7W 4.05GHz，9W 4.45GHz，和M4一样的3-2Cell。E-Core：0.45W（Core），0.75W（motherboard）。本来还是有望G6：3600 9200的，不过iOS18导致的掉分，估计最后也就个3300 8800，这很正常，说不定是修security修没了3-5%。如果我这里数据没错，G6 10W 8000，12W 8800，16W 9200，multi core efficiency就这样。G5:2450 7166。 frequency的话，P-Core：4.05GHz，E-Core 2.4GHz，Size A18 and Pro：2P4E。接下来说说GPU。GPU还是熟悉的M4上那个Apple 9/10GPU，A18 Pro：6C 1.49GHz，A18:5C 1.49GHz。SNL的话极限应该2050 11W（6C）1800 9.3W（5C），日常估计Pro 1800？标准版1600？不清楚，总之A18 Pro的Apple 9修的更好了一些，peek +20%，持续+15%（performance）。 A18就是2P4E，5C GPU，我看CPU就差个5-6%，GPU差的多，可能10%。（对比A18 Pro）A18目标是打过A16，目前来看是超预期完成（hh）。最后就是日常使用，日常功耗比A17 Pro低3-5%，新加了自研顺序核心当协处理器（M18回来了（确信）），用于控制功耗。全系LPDDR5X-7466 8GB（散热+10%，这次改了温控，虽然时间长了会烫，但不会像去年一开始就很烫。）内存抽奖：SK Hynix，Micron，Samsung抽。ANE估计40TOPs，加bandwidth就是为了ANE。实际应用提升15%。应该就这些了吧，下一次考前密押M4高阶了。

因不可抗力因素，修改时间不晚于发布会前8h发布因不可抗力因素，修改时间不晚于发布会前8h发布

最喜欢的一张图 rt

Apple Event来了 9月10号

有关A18 Series 不要急，发布会前12h以内就有考前密押了

AMD STX HALO 我突然发现我还挺期待搭载STX HALO的ROG幻X，要兼容性有兼容性，要性能有性能，价格估计也对得起产品。128GB内存，16c Zen5+20WGP RDNA3.5，这是我理想的配置。反正这玩意肯定比XE好多了，那是不可回收乐色。引用13的逻辑，连核心功耗都不敢被调取证明心里有鬼，所以XE一定不行，不然大大方方让大家测不就好了。XE续航和Apple比依然有劣势，兼容性爆炸低，不坑准大一新生都算它有道德。华为那个外接显卡的性能本和XE一对比都有性价比了，真是令人忍俊不禁，不知道有啥可吹的。说回STX HALO，有种X86阵营的M4 Max的美，期待CES2025。