小tree_666
小tree_666
关注数: 333
粉丝数: 520
发帖数: 2,956
关注贴吧数: 43
ASML发货第一台TWINSCAN EXE:5200B We see continued progress in litho intensity, particularly in DRAM, and the introduction of the TWINSCAN NXE:3800Ereinforces that momentum. Meanwhile, EUV adoption is advancing as planned, including High NA. This quarter, weshipped the first TWINSCAN EXE:5200B system. TWINSCAN EXE:5200B是ASML第二代0.55 NA高数值孔径EUV光刻系统,支持8 nm分辨率和高40%的成像对比度,大幅提升晶体管密度与良率。系统利用8g晶圆台和32g光罩台加速,可实现175–200片/小时的高吞吐量,相比上一代产能提高约60%。然而,单台售价4亿欧元,且设备复杂度高、供应周期长,乐观预计2026年底可交付约20台,维护与集成投入巨大。
第二弹:今年某A家的A芯为什么会很热呢,我认为首先DRAM的 第二弹: 今年某A家的A芯为什么会很热呢,我认为首先DRAM的power涨了很多(为了Apple Intelligence肯定要干的),其次,N3P的high freq efficiency很差,感觉power得涨15-20%,才能换5-6%的freq。
提前谈点N3P N3P是N3最后的process node,目前来看+6%的能效,+6%的density。我猜今年某A开头厂商的A开头芯片,我可以说,并不凉快,个人认为结合一体铝合金和VC,应该和A18 Pro的发热高一些?应该和A17 Pro比能好一点。如果你对日常发热很敏感的话,我推荐等N2。
Google Tensor G5 rt CPU最新分数。
Breaking News Samsung Z Flip 7全系Exynos2500 (我有点想整一台了)
未来属于AI 你果寄了
有点意思啊
终于忙完了 总算忙完了,想一想接下来些什么文章
Minecraft官方光影 MC官方光影发布了,来看看各家的表现如何,我这个A18 Pro,全部拉满的情况下,感觉可能就20帧,看看吧友们的帧率
Apple C1 Modem dieshot Stepping:A0A0 diesize:6.20*6.42=39.804mm2(Modem) 6.23*6.54=40.744(RF Transceiver) N4+N6RF 作为对比,图三图四为intel XMM7660 Modem diesize:6.98*8.31=58.0038(Modem) 37.6142(RF Transceiver) 作者yy:对比图5高通全家桶,Apple Modem目前的PPA挺烂的,除了save energy没啥优点,希望C2会有惊喜。 特别鸣谢:@万扯淡 (由于贴吧限制,无法发出图片,请移步B站或其他平台寻找LITTERTREE66)
现在来看,除了某些子项,X90靠SMT刷到超过M3的水平,基 现在来看,除了某些子项,X90靠SMT刷到超过M3的水平,基本对上了吧
Ultra 双海思A5一英寸底。如果有XT也是9020,换C Ultra 双海思A5一英寸底。 如果有XT也是9020,换COMS
Exynos 2500 如图,RDNA3.5 Mobile 8WGP,作为对比,图二为Xring O1的Imm G925 MC16,图三为Adreno 830。
总结WWDC WWDC看完了,新的界面挺好看的,就是不知道会有多费电,然后75%的功能有关Apple Intelligence,国区用不了,Mac比较重要的Metal4,得等过几天。Vision OS确实不错。基本也没啥了。确实今年是大更新,但是很多功能涉及Apple Intelligence。
标题五个字
标题五个字
考前预测卷 Pura 80 Ultra,1/2.5+1+1(长焦1英寸 3.7/10x,10x是1200万像素裁切,长焦的底会斜着摆)pro,pro+应该1英寸+1/2.5+1/2.5,标准版不知道。 然后芯片,8020 9020 9020 9020,都是老演员了。全系2D+侧边。
纠正,Modem为Exynos 5400,Wi-Fi为BCM 纠正,Modem为Exynos 5400,Wi-Fi为BCM4390
Google Pixel 10 Pro曝光 Pixel 10 Pro曝光,我看还挺好看的,我会考虑买一台。重点是,Tensor G5的细节曝光了 1*X4-3.9GHz,5*A725-3.05GHz,2*A520-2.2GHz,IMG DXT-48-1536 MC2 1.1GHz,看这个配置和freq,TSMC N3E是稳了。Modem应该是MTK T900?Wi-Fi不清楚博通还是MTK,问题来了,Tensor G5又是哪家套壳呢 (楼下补图)
Xring悬了 据英国《金融时报》28日报道,美国政府已实质性切断了部分美国企业向中国出售半导体设计软件的渠道。报道援引知情人士称,受影响企业包括Cadence、Synopsys及Siemens EDA。 这些EDA,尤其Cadence,Synopsys,才能做TSMC N3及更先进的工艺,如果被禁了,许可证到期,那么和不允许用TSMC/Samsung工艺没啥区别了。
高通委托第三方测试Apple C1 Modem rt C1 Modem表现不如X75/80,远甚。 报告链接评论区发布。
哎wc,Apple怎么这么坏啊 哎Apple,哎ARM。
Google Pixel 10 最近曝光了Google Pixel 10,看上去还是Pixel 9的设计语言,不过好像加了长焦?我反正挺喜欢Pixel 9的这个设计语言,10传下来挺不错的,而且看起来10和Pro区别就只有温度传感器?那看起来我今年更倾向于10。 谈谈Tensor G5,X4+A725+A520(1+5+2)比较常规的design,然后比较有特色的是IMG DXT-48-1536 MC2,哇哦,IMG再一次肘赢复活赛,我想等黑五可以买一台尝尝咸淡。 最后,图5,笑点解析,iPhone。
emm,所以这个Xring到底是不是ARM CSS for Client,小米说不是,MTK在财报会也否认了自己用CSS,那是不是证明ARM为了卖服务在骗人。现在就是一点,只要不是CSS for Client,那Xring就可以是Kirin 980差一点的自研(少了Wi-Fi,Modem),那么结论就显而易见,Xring肯定是自研SoC,只是某些IP不是,但是不影响是自研。 所以现在就很尴尬,ARM在骗人?
Exynos 2500 别搁那看Xring,来看看刚肘赢牢大的Exynos 2500,维持了Samsung一贯的幽默score,拿新的arch打不过别人上一代。 Samsung SF3,1*X925-3.3GHz,2*A725-2.75GHz,5*A725-2.36GHz,2*A520-1.8GHz RDNA3.5(Mobile)8WGP 1.2GHz?
专门找的证据 rt
Xring自研?字研! rt
果粉66上线 今天心血来潮,给自己的16PM跑了个SNL,跑破防了,不过,我发现了一个有趣的东西和你们分享。
我看GB6,homo PC有分了?楼下补图。 我看GB6,homo PC有分了? 楼下补图。
理性分析一下,我认为Xring大概率用了Arm CSS for Client 。 Arm CSS for Client 是 Arm 推出的面向消费类设备(智能手机、笔记本、桌面和边缘 AI 终端)的“一站式”计算子系统,集成了最新的 Armv9.2 CPU、Immortalis-G GPU、CoreLink 系统互联与生产就绪的 3nm 物理实现,并配套 KleidiAI 软件库,旨在帮助芯片合作伙伴大幅缩短开发周期、提升 AI 与图形性能,以及实现差异化定制 。 这套服务缺点就是很贵很贵,但是确实能够让OEM缩短差距。听说字节也要用这服务了,技术不够,服务来凑,是不是自研公说公有理,婆说婆有理。
联想自研芯 分析如下: 2*X3-3.29GHz,3*A715-2.83GHz,2*A715-1.9GHz,3*A510-1.71GHz Imm G720 MC10?(?)MHz
Xring O1 求求你别刷了,再刷我怎么感觉A19 Pro都打不过Xring O1了
确认了,Imm G925 MC16 确认了,Imm G925 MC16
Xring O1 开始刷分了,不错不错
谈谈我的看法,首先我没有证据证明Xring套壳了,也没有证据 谈谈我的看法,首先我没有证据证明Xring套壳了,也没有证据证明没有套壳,只有推测,我认为没有任何的意义,所以我不care是不是套壳,我更care的是,假设有迭代,需要用到TSMC N2的时候(小知识:TSMC N2的PDK是不能进入中国大陆的)所以如果Xring能拿出来N2,那我可就要怀疑了,并且到时候怀疑也不迟,现在不如好好吃瓜。O1我等双11整一台玩玩,不过也有可能是黑五等Pixel 10 Pro的Tensor G5,听说也是N3E,不过这就是后话了。
补充1:diesize:114.5mm2 补充1: diesize:114.5mm2
纠正数据:2*X925-3.9GHz,4*A725-3.4G 纠正数据:2*X925-3.9GHz,4*A725-3.4GHz,2*A725-1.89GHz,2*A520-1.8GHzlmm G925 MC16-1.795GHz
Xring O1 GB6 score曝光,分数惊人
Xring O1 GB6分数 看上去是2+4+2+2,X4+A720+A720+A520?哈吉米,有点意思。
好家伙,机圈三大神话终于实现了? Kirin回归,Apple Modem,Mi SoC
Apple Modem进展神速 据路边社消息,Apple C2 Modem将补齐mmWave RF,并在26Q3应用于全系iPhone,并提前一年与高通解约,这是否代表,高通将失去一个巨大的利润来源。近年来,高通的芯片涨价,中国手机厂商OPPO和vivo选择转向MTK,而高通下一个增长点押在X Elite和车机系统,这是否代表高通即将步入多事之秋? 高通吧记者为您报道。
谈谈homo PC chip吧 4+4+2的CPU,2.3GHz+2.0+2.0,整体大概在25-30W的power,差不多就比M2 Max的power低点,不过考虑到是9010的大核配9010中核和9010中核的设计……,单核嘛,打A12X都费劲,多核靠SMT刷一下分还是有希望M1试试,虽然可能还会有点差距,GPU是maliang 910 6CU 950MHz,大概15-20W的power,也就是M3 GPU的power,不过……,GPU就幽默了,这个玩意大概就是比920 4CU稍强一点的水平,估计就是A14 GPU的性能,M1的一半。比过不需要因此而觉得绝望,今年年底应该还有迭代,未来可期。至于系统嘛,以目前来看,生态比20年刚用Apple Silicon的macOS Big Sur,还是差了很多。只能慢慢等了,Mac靠了五年的发展才有目前差强人意的软件规模。homo PC任重道远。所以,放弃幻想,接受现实,这样才能更好的进步。
IMG打赢复活赛了 IMG EXT来了,Tensor Core也加了。 rt
看样子是联想的某种SoC,据目前的两图可知为A510和A715,根据5nm的消息,猜测一下。 2*X3-3.29GHz,3*A715-2.83GHz,2*A715-1.9GHz,3*A510-1.7GHz?lmm G720 MC10-12?
更正:CPU:4+4+2(big+big+middle)20 更正: CPU:4+4+2(big+big+middle)20thread 2.3+2.0+2.0(u-arch same as 9010) GPU:maliang 910 4/6CU 750/950MHz(2 versions) 不知道到时候准不准了
homo PC Chip 4+4+2(big+middle+small) 2.3+2.0+2.0(GHz) maliang 910 4/6CU 950MHz (4/6 means two versions) ≈8cx Gen3
谈谈homo PC 明天要发homo PC chip了? 我好像考前密押都没准备好(悲
66的u-arch小课堂——trace cache 拖更的有点久,emm,理解万岁()。那么话不多说,直接进入正题。 我们都知道,Apple的微架构还是非常强的,尤其是front-end,业界除了IBM,最强就是Apple了,但是我们也知道Apple缺失了2-taken branch这个feature,什么是2-taken?顾名思义,1个cycle里处理两个jump的预测技术,以提高fetch的吞吐量。传统的分支预测器通常在一个周期内只能预测“1-taken”(即最多一个分支为 taken),遇到连串的分支指令时,后一条分支要等前一条预测完成才能继续预测,会导致取指停顿。2-taken 则将这一带宽扩展到同时预测两条taken分支,减少了流水线空泡,提高了分支密集型代码的执行效率。在日常的workload中,按照一般3-4条指令一次跳转,两三次跳转一个taken来算的话,基本上让超过6-wide的部分用处不大了,这个还是挺要命的,所以,2-taken就十分之重要,虽然Apple在Donan做了一个比较简化的2-taken,即只要在同一个fetch group中间加个小direct taken,target也在fg里面,但是这个2-taken的泛用性太差了,聊胜于无。如果像ARM,AMD,intel去做完整的2-taken,那么消耗将非常大,你需要做双端口指令获取与解码流水线,双端口 BTB 与分层 BTB 结构,多窗口预测与第三预测窗口,对于Apple来说,完整的做2-taken会推翻目前Apple现有的front-end和对应的pipeline,这是一个吃力不一定讨好的策略,所以我们是否有基于现状的更好的策略,可以通过小改实现同样甚至翻倍效果的技术呢?有的兄弟,有的,trace cache,或许是新的解法。 那么今天我们来讨论一下有关trace cache以及其衍生技术,不过首先我们需要了解一下,什么是trace cache。 Trace Cache是一种用于processor’s fetch front-end(处理器取指前端)的高速缓存结构,其核心思想是缓存一条条“trace”——即跨越多个基本块(basic block)的连续指令序列,而非传统上按basic block(基本块)或cache line(缓存行)存储指令。这样做的目的是提高指令提取带宽,减少因重复访问指令缓存而引入的延迟及功耗,同时改善pipeline(流水线)的continuity(连续性)。通过caching(缓存)整个trace,当程序沿着predited execution path(预测的执行路径)运行时,处理器可以一次性提取较长的指令序列,从而降低branch misprediction(分支预测失误)对front-end performance(前端性能)的影响。 在了解了什么是trace cache后,我们来讲讲基于trace cache的技术——Optimized Design of a Trace Cache Architecture Based on Bias-Controlled Transfer Instructions(基于偏向性控制转移指令的Trace Cache架构优化设计) 摘要: 本文将详细介绍一种处理器Trace Cache(迹缓存)优化架构,其核心思想是利用控制转移指令的偏向性(bias)来提高迹缓存的有效性和效率。该架构将控制jumpinstructions(转移指令)按execution history(执行历史)分为“稳定”(stable)和“不稳定”(unstable)两类,仅允许stable jump control instructions(稳定控制转移指令)作为trace cache中的内部指令,而将unstable jump control instructions(不稳定控制转移指令)限制为只能出现在迹缓存末端。通过这一策略,processor(处理器)能够在保证高指令提取带宽的同时显著reduce trace cache misprediction(降低因迹缓存误预测)而导致的开销,并减少实现复杂度和硬件资源消耗,因而在性能和能效上相对传统架构具有优势。接下来本文会从,对该架构进行背景介绍、技术方案描述、模块与流程分析,并结合专利图示深入阐述“Less-Stable Before End (LBE)”方案的意义与作用,最后讨论其性能优势和应用前景。
文章预告:66的u-arch小课堂——trace cache 文章预告:66的u-arch小课堂——trace cache。 不晚于5月4日更新。
复盘TSMC 最近复盘TSMC的process node的时候,发现28年的TSMC A14没有BS-PDN,A16是有的,再要有就是29年的A14P,结合林檎不用A16 process node……我好像发现了什么不得了的东西
Apple前瞻 Apple不会用TSMC A16。
论iPhone续航 我这台是圣诞节买的16PM,室外5G亮度拉满的续航很一般,亮屏也就4.1h就剩18%了。不知道吧里的iPhone续航怎么那么好。
66的u-arch思绪飞扬 听说8E2的CPU cluster,all core use shared L2 cache,这个desigb很有想法,这让我想到了HPCA25的一个paper,IBM的latera cache persistence algorithm,每个 L2 在eviction (替换)时,会把被换出的cache line通过ring bus“latera”(横向)write到最空闲或最少活动的 L2 里(这是“虚拟 L3”的实现原理:把原本要逐层写到大 L3 的数据转而写到某个在同作用域的 L2)。 在server层面同理:若在本芯片 L2 都无法容纳了,就把该行再“横向”写到另一个芯片上最空闲 L2(对应 vL4 作用域)。这样数据在 cache line 的生存期中会多次“lateral move”(横向移动),直到最终write back memory。 这样就让各个 L2 协同,像一个共用大缓存一样工作,无需真正构建巨大的统一物理 L3 / L4,还可以在配置更改、技术演进、芯片数量/server数量变动时灵活适配。 我们来看原理 基本原理 1.依赖活动计数器跟踪每个缓存单元(片内:8 个 L2;机柜内:8 片芯片)的安装/驱逐事件;时选取最低计数器的单元作为溢出目标(即 LRU 范围扩展); 2. miss时选取最低计数器的单元作为溢出目标(即 LRU 范围扩展); 3.溢出事件分级触发: (1)Primary Castout (PCO):本地 L2 → 目标 L2; (2)Secondary Castout (SCO):若目标 L2 再驱逐,则流向最低活动芯片的 L2; (3)Tertiary Castout (TCO):最终写回对应内存端口或失效。 该机制将 L2 作为多级“Victim Cache”,在片内/机柜内构建虚拟 L3/L4,镜像传统包容性层级行为,又充分利用所有 L2 资源 自适应插入策略当应用工作集能驻留本地 L2 时,单一缓存计数器失衡会导致重复溢出并驱逐自身常用数据;引入中间 LRU插入:横向溢出行插入至行内第 1/n MRU 位置,而非最 MRU;若检测到溢出内容占满该插槽,则切换为 MRU 安装,以支持小工作集。 为什么会这样?因为传统的设计当你在L1 miss了,你就得snoop to L2,L2再miss你得上L3,SLC,隔壁L2/L3,DRAM。这样会产生 long latency,并且产生更多的energy waste。所以,我们可以让临近的不怎么用的shared L2/3 cache block当virtual L3/4。可以在一些high cache stress上获得+9-11% performance。 但是这么做,这是有代价的,IBM有好像17种L2 cache state,并且核心一多coherency直接裂开,想想每次L2 miss就要给所有L2发snoop……hhh,snoop满天飞。并且必然要解决你放data的时候别的L2 cache不忙,你读data的时候人家开始忙了的问题。
我准备谈谈trace cache,看看吧U有没有补充,以使得我的文章更加全面
TSMC N2 This is the first product this year to utilize TSMC’s N2 process — the AMD Venice CCD. With the superior energy efficiency offered by N2, AMD is expected to achieve even greater advancements.
勘误(66的错误结论) 首先我要向通吧的读者们道歉,因为缺少feature因而对Pura X上K9020的package type出现误判,在此致歉并进行勘误。 从下图剖面(图1,图3为A series的Info_POP)来看,这确实是TSMC Info_POP类似物—FOPOP,即Fan-Out,Fan-Out其实就是without substrate,change to RDL。所以可以让SoC更加的thiner,以及获得更好的Electrical performance。 通俗来说:“Fan-Out”是一种通过在芯片周围构建扩展的重布线层(RDL),将芯片的 I/O 连接“扇出”到比芯片本体更大的区域中,从而实现更高的引脚密度、更薄的封装以及更优的电气和热性能,而无需使用传统的基板。
HUAWEI Ascend集群 集群还不错,但是这么大的switch看起来是没有COUPE(Compact Universal Photonic Engine),computing power也是384打72……hhh。
谈谈Mate XT 写在9020版XT发布前2个月,写写我和XT的故事吧。 啊,去年11月我也买了一台Mate XT,在我的一个朋友的帮助下原价买到的,手机还行,毕竟是个能塞口袋里的小平板,不过可惜我才到手一天就坏了,屏幕自己漏液了,售后挺好的,去了之后检测不是人为的就给我换了一台新的,不过我也因为这个用了一天就漏液给吓到了,心理压力挺大的,手机加上Care快两万八,而且修一次也不便宜,用了一个月后,12月底出手的,亏了7000,主要还是HUAWEI Care退不了(悲),12月底忙学业,一直到1月初,iPhone官网降价500块,勉为其难整一台,现在心理压力一下小很多了,终于不用怕薛定谔的漏液了。 当然,Mate XT确实是个好手机,很有创新,不过对于鄙人来说,我想Vision Pro会是个对我来说更不错的选择,所以我想,今年秋季我会买台Vision Pro2玩玩。 至于你们说的小吧就这个水平,别AOE全体,通吧的小吧和吧主人都挺好的,算是我拉低他们的水平了。也挺对不住其他人的。
Dieshot Google Tensor G4 diesize:10.74*12.68=136.1832mm2 dieshot stepping:A0A0 (作者yy:和Tensor G3几乎一样,传闻看起来是对的,用了一样的floorplan,因为X4太大才塞不下1+4+4)
悲,我们的Xring究竟会变成什么样子 rt
1
下一页