小tree_666
小tree_666
关注数: 330
粉丝数: 562
发帖数: 3,202
关注贴吧数: 43
Exynos 2500 别搁那看Xring,来看看刚肘赢牢大的Exynos 2500,维持了Samsung一贯的幽默score,拿新的arch打不过别人上一代。 Samsung SF3,1*X925-3.3GHz,2*A725-2.75GHz,5*A725-2.36GHz,2*A520-1.8GHz RDNA3.5(Mobile)8WGP 1.2GHz?
专门找的证据 rt
Xring自研?字研! rt
果粉66上线 今天心血来潮,给自己的16PM跑了个SNL,跑破防了,不过,我发现了一个有趣的东西和你们分享。
我看GB6,homo PC有分了?楼下补图。 我看GB6,homo PC有分了? 楼下补图。
理性分析一下,我认为Xring大概率用了Arm CSS for Client 。 Arm CSS for Client 是 Arm 推出的面向消费类设备(智能手机、笔记本、桌面和边缘 AI 终端)的“一站式”计算子系统,集成了最新的 Armv9.2 CPU、Immortalis-G GPU、CoreLink 系统互联与生产就绪的 3nm 物理实现,并配套 KleidiAI 软件库,旨在帮助芯片合作伙伴大幅缩短开发周期、提升 AI 与图形性能,以及实现差异化定制 。 这套服务缺点就是很贵很贵,但是确实能够让OEM缩短差距。听说字节也要用这服务了,技术不够,服务来凑,是不是自研公说公有理,婆说婆有理。
联想自研芯 分析如下: 2*X3-3.29GHz,3*A715-2.83GHz,2*A715-1.9GHz,3*A510-1.71GHz Imm G720 MC10?(?)MHz
Xring O1 求求你别刷了,再刷我怎么感觉A19 Pro都打不过Xring O1了
确认了,Imm G925 MC16 确认了,Imm G925 MC16
Xring O1 开始刷分了,不错不错
谈谈我的看法,首先我没有证据证明Xring套壳了,也没有证据 谈谈我的看法,首先我没有证据证明Xring套壳了,也没有证据证明没有套壳,只有推测,我认为没有任何的意义,所以我不care是不是套壳,我更care的是,假设有迭代,需要用到TSMC N2的时候(小知识:TSMC N2的PDK是不能进入中国大陆的)所以如果Xring能拿出来N2,那我可就要怀疑了,并且到时候怀疑也不迟,现在不如好好吃瓜。O1我等双11整一台玩玩,不过也有可能是黑五等Pixel 10 Pro的Tensor G5,听说也是N3E,不过这就是后话了。
补充1:diesize:114.5mm2 补充1: diesize:114.5mm2
纠正数据:2*X925-3.9GHz,4*A725-3.4G 纠正数据:2*X925-3.9GHz,4*A725-3.4GHz,2*A725-1.89GHz,2*A520-1.8GHzlmm G925 MC16-1.795GHz
Xring O1 GB6 score曝光,分数惊人
Xring O1 GB6分数 看上去是2+4+2+2,X4+A720+A720+A520?哈吉米,有点意思。
好家伙,机圈三大神话终于实现了? Kirin回归,Apple Modem,Mi SoC
Apple Modem进展神速 据路边社消息,Apple C2 Modem将补齐mmWave RF,并在26Q3应用于全系iPhone,并提前一年与高通解约,这是否代表,高通将失去一个巨大的利润来源。近年来,高通的芯片涨价,中国手机厂商OPPO和vivo选择转向MTK,而高通下一个增长点押在X Elite和车机系统,这是否代表高通即将步入多事之秋? 高通吧记者为您报道。
谈谈homo PC chip吧 4+4+2的CPU,2.3GHz+2.0+2.0,整体大概在25-30W的power,差不多就比M2 Max的power低点,不过考虑到是9010的大核配9010中核和9010中核的设计……,单核嘛,打A12X都费劲,多核靠SMT刷一下分还是有希望M1试试,虽然可能还会有点差距,GPU是maliang 910 6CU 950MHz,大概15-20W的power,也就是M3 GPU的power,不过……,GPU就幽默了,这个玩意大概就是比920 4CU稍强一点的水平,估计就是A14 GPU的性能,M1的一半。比过不需要因此而觉得绝望,今年年底应该还有迭代,未来可期。至于系统嘛,以目前来看,生态比20年刚用Apple Silicon的macOS Big Sur,还是差了很多。只能慢慢等了,Mac靠了五年的发展才有目前差强人意的软件规模。homo PC任重道远。所以,放弃幻想,接受现实,这样才能更好的进步。
IMG打赢复活赛了 IMG EXT来了,Tensor Core也加了。 rt
看样子是联想的某种SoC,据目前的两图可知为A510和A715,根据5nm的消息,猜测一下。 2*X3-3.29GHz,3*A715-2.83GHz,2*A715-1.9GHz,3*A510-1.7GHz?lmm G720 MC10-12?
更正:CPU:4+4+2(big+big+middle)20 更正: CPU:4+4+2(big+big+middle)20thread 2.3+2.0+2.0(u-arch same as 9010) GPU:maliang 910 4/6CU 750/950MHz(2 versions) 不知道到时候准不准了
homo PC Chip 4+4+2(big+middle+small) 2.3+2.0+2.0(GHz) maliang 910 4/6CU 950MHz (4/6 means two versions) ≈8cx Gen3
谈谈homo PC 明天要发homo PC chip了? 我好像考前密押都没准备好(悲
66的u-arch小课堂——trace cache 拖更的有点久,emm,理解万岁()。那么话不多说,直接进入正题。 我们都知道,Apple的微架构还是非常强的,尤其是front-end,业界除了IBM,最强就是Apple了,但是我们也知道Apple缺失了2-taken branch这个feature,什么是2-taken?顾名思义,1个cycle里处理两个jump的预测技术,以提高fetch的吞吐量。传统的分支预测器通常在一个周期内只能预测“1-taken”(即最多一个分支为 taken),遇到连串的分支指令时,后一条分支要等前一条预测完成才能继续预测,会导致取指停顿。2-taken 则将这一带宽扩展到同时预测两条taken分支,减少了流水线空泡,提高了分支密集型代码的执行效率。在日常的workload中,按照一般3-4条指令一次跳转,两三次跳转一个taken来算的话,基本上让超过6-wide的部分用处不大了,这个还是挺要命的,所以,2-taken就十分之重要,虽然Apple在Donan做了一个比较简化的2-taken,即只要在同一个fetch group中间加个小direct taken,target也在fg里面,但是这个2-taken的泛用性太差了,聊胜于无。如果像ARM,AMD,intel去做完整的2-taken,那么消耗将非常大,你需要做双端口指令获取与解码流水线,双端口 BTB 与分层 BTB 结构,多窗口预测与第三预测窗口,对于Apple来说,完整的做2-taken会推翻目前Apple现有的front-end和对应的pipeline,这是一个吃力不一定讨好的策略,所以我们是否有基于现状的更好的策略,可以通过小改实现同样甚至翻倍效果的技术呢?有的兄弟,有的,trace cache,或许是新的解法。 那么今天我们来讨论一下有关trace cache以及其衍生技术,不过首先我们需要了解一下,什么是trace cache。 Trace Cache是一种用于processor’s fetch front-end(处理器取指前端)的高速缓存结构,其核心思想是缓存一条条“trace”——即跨越多个基本块(basic block)的连续指令序列,而非传统上按basic block(基本块)或cache line(缓存行)存储指令。这样做的目的是提高指令提取带宽,减少因重复访问指令缓存而引入的延迟及功耗,同时改善pipeline(流水线)的continuity(连续性)。通过caching(缓存)整个trace,当程序沿着predited execution path(预测的执行路径)运行时,处理器可以一次性提取较长的指令序列,从而降低branch misprediction(分支预测失误)对front-end performance(前端性能)的影响。 在了解了什么是trace cache后,我们来讲讲基于trace cache的技术——Optimized Design of a Trace Cache Architecture Based on Bias-Controlled Transfer Instructions(基于偏向性控制转移指令的Trace Cache架构优化设计) 摘要: 本文将详细介绍一种处理器Trace Cache(迹缓存)优化架构,其核心思想是利用控制转移指令的偏向性(bias)来提高迹缓存的有效性和效率。该架构将控制jumpinstructions(转移指令)按execution history(执行历史)分为“稳定”(stable)和“不稳定”(unstable)两类,仅允许stable jump control instructions(稳定控制转移指令)作为trace cache中的内部指令,而将unstable jump control instructions(不稳定控制转移指令)限制为只能出现在迹缓存末端。通过这一策略,processor(处理器)能够在保证高指令提取带宽的同时显著reduce trace cache misprediction(降低因迹缓存误预测)而导致的开销,并减少实现复杂度和硬件资源消耗,因而在性能和能效上相对传统架构具有优势。接下来本文会从,对该架构进行背景介绍、技术方案描述、模块与流程分析,并结合专利图示深入阐述“Less-Stable Before End (LBE)”方案的意义与作用,最后讨论其性能优势和应用前景。
文章预告:66的u-arch小课堂——trace cache 文章预告:66的u-arch小课堂——trace cache。 不晚于5月4日更新。
复盘TSMC 最近复盘TSMC的process node的时候,发现28年的TSMC A14没有BS-PDN,A16是有的,再要有就是29年的A14P,结合林檎不用A16 process node……我好像发现了什么不得了的东西
Apple前瞻 Apple不会用TSMC A16。
论iPhone续航 我这台是圣诞节买的16PM,室外5G亮度拉满的续航很一般,亮屏也就4.1h就剩18%了。不知道吧里的iPhone续航怎么那么好。
66的u-arch思绪飞扬 听说8E2的CPU cluster,all core use shared L2 cache,这个desigb很有想法,这让我想到了HPCA25的一个paper,IBM的latera cache persistence algorithm,每个 L2 在eviction (替换)时,会把被换出的cache line通过ring bus“latera”(横向)write到最空闲或最少活动的 L2 里(这是“虚拟 L3”的实现原理:把原本要逐层写到大 L3 的数据转而写到某个在同作用域的 L2)。 在server层面同理:若在本芯片 L2 都无法容纳了,就把该行再“横向”写到另一个芯片上最空闲 L2(对应 vL4 作用域)。这样数据在 cache line 的生存期中会多次“lateral move”(横向移动),直到最终write back memory。 这样就让各个 L2 协同,像一个共用大缓存一样工作,无需真正构建巨大的统一物理 L3 / L4,还可以在配置更改、技术演进、芯片数量/server数量变动时灵活适配。 我们来看原理 基本原理 1.依赖活动计数器跟踪每个缓存单元(片内:8 个 L2;机柜内:8 片芯片)的安装/驱逐事件;时选取最低计数器的单元作为溢出目标(即 LRU 范围扩展); 2. miss时选取最低计数器的单元作为溢出目标(即 LRU 范围扩展); 3.溢出事件分级触发: (1)Primary Castout (PCO):本地 L2 → 目标 L2; (2)Secondary Castout (SCO):若目标 L2 再驱逐,则流向最低活动芯片的 L2; (3)Tertiary Castout (TCO):最终写回对应内存端口或失效。 该机制将 L2 作为多级“Victim Cache”,在片内/机柜内构建虚拟 L3/L4,镜像传统包容性层级行为,又充分利用所有 L2 资源 自适应插入策略当应用工作集能驻留本地 L2 时,单一缓存计数器失衡会导致重复溢出并驱逐自身常用数据;引入中间 LRU插入:横向溢出行插入至行内第 1/n MRU 位置,而非最 MRU;若检测到溢出内容占满该插槽,则切换为 MRU 安装,以支持小工作集。 为什么会这样?因为传统的设计当你在L1 miss了,你就得snoop to L2,L2再miss你得上L3,SLC,隔壁L2/L3,DRAM。这样会产生 long latency,并且产生更多的energy waste。所以,我们可以让临近的不怎么用的shared L2/3 cache block当virtual L3/4。可以在一些high cache stress上获得+9-11% performance。 但是这么做,这是有代价的,IBM有好像17种L2 cache state,并且核心一多coherency直接裂开,想想每次L2 miss就要给所有L2发snoop……hhh,snoop满天飞。并且必然要解决你放data的时候别的L2 cache不忙,你读data的时候人家开始忙了的问题。
我准备谈谈trace cache,看看吧U有没有补充,以使得我的文章更加全面
TSMC N2 This is the first product this year to utilize TSMC’s N2 process — the AMD Venice CCD. With the superior energy efficiency offered by N2, AMD is expected to achieve even greater advancements.
勘误(66的错误结论) 首先我要向通吧的读者们道歉,因为缺少feature因而对Pura X上K9020的package type出现误判,在此致歉并进行勘误。 从下图剖面(图1,图3为A series的Info_POP)来看,这确实是TSMC Info_POP类似物—FOPOP,即Fan-Out,Fan-Out其实就是without substrate,change to RDL。所以可以让SoC更加的thiner,以及获得更好的Electrical performance。 通俗来说:“Fan-Out”是一种通过在芯片周围构建扩展的重布线层(RDL),将芯片的 I/O 连接“扇出”到比芯片本体更大的区域中,从而实现更高的引脚密度、更薄的封装以及更优的电气和热性能,而无需使用传统的基板。
HUAWEI Ascend集群 集群还不错,但是这么大的switch看起来是没有COUPE(Compact Universal Photonic Engine),computing power也是384打72……hhh。
谈谈Mate XT 写在9020版XT发布前2个月,写写我和XT的故事吧。 啊,去年11月我也买了一台Mate XT,在我的一个朋友的帮助下原价买到的,手机还行,毕竟是个能塞口袋里的小平板,不过可惜我才到手一天就坏了,屏幕自己漏液了,售后挺好的,去了之后检测不是人为的就给我换了一台新的,不过我也因为这个用了一天就漏液给吓到了,心理压力挺大的,手机加上Care快两万八,而且修一次也不便宜,用了一个月后,12月底出手的,亏了7000,主要还是HUAWEI Care退不了(悲),12月底忙学业,一直到1月初,iPhone官网降价500块,勉为其难整一台,现在心理压力一下小很多了,终于不用怕薛定谔的漏液了。 当然,Mate XT确实是个好手机,很有创新,不过对于鄙人来说,我想Vision Pro会是个对我来说更不错的选择,所以我想,今年秋季我会买台Vision Pro2玩玩。 至于你们说的小吧就这个水平,别AOE全体,通吧的小吧和吧主人都挺好的,算是我拉低他们的水平了。也挺对不住其他人的。
Dieshot Google Tensor G4 diesize:10.74*12.68=136.1832mm2 dieshot stepping:A0A0 (作者yy:和Tensor G3几乎一样,传闻看起来是对的,用了一样的floorplan,因为X4太大才塞不下1+4+4)
悲,我们的Xring究竟会变成什么样子 rt
破案了,FCPOP rt 如图可知,此为FCPOP,Filp Chip POP,非Apple使用的info_POP的package。仅仅更改DRAM的package使之对齐以显美观。 至于说一体封装之人,我呸,尔等简直一派胡言。
教各位果粉一个妙招 如果你担心你的1/3.1的烂长焦拍不清晰,不用害怕,使用GPT来给你超分,这下遥遥领先了,建议Apple在iOS19把GPT-4o-image集成进Apple Intelligence,绝对有用
允许我玩点抽象 Breaking News: Samsung Electronics Chairman Lee Jae-yong was recently seen visiting the Xiaomi Group. Does this indicate that Xiaomi is considering sourcing Exynos chips for its mid- to low-end products to protect Xring from alleged coercion by Qualcomm? Moreover, could this move signal plans to adopt the Samsung Foundry Process Node as a contingency to ensure a steady supply of Xring, should TSMC arbitrarily halt deliveries?
两个神秘代码 1.N+3 125 N7P/N6 2.N+2 9010 4+4+2 60%~70% 8cx Gen3(2=A510)
不行了,活不了了 rt Google简直是通黑,内部预测分数竟敢这么黑我们通通,罪大恶极。
IMG官宣用自己DXT IP的OEM了 rt,IMG官宣了用自己IP的厂商,Google Tensor G5算是确认了。哎等一下,这个Xiaomi?啊?这对吗?
NVIDIA DGX Spark Project Digits(DGX Spark) 技术规格与价格 yy:就这***卖我3999刀……感觉,Mac Studio也不是不行……,我等M5 Ultra
NVIDIA GTC 2025 OK,今晚GTC数据量庞大,我挑比较有意思的给你们讲。 首先就是各种basic on CUDA的Library,例如加速计算光刻,模拟Quantum Compute,气象模拟,物理数字孪生等等。 然后,重头戏,Blackwell Ultra,2025年下半年交付,这一套就是GB300 NVL72,对比GB200有50%的performance improve(如图2),GB300有15PFLOPs(Dense)的performance,对比GB200 sparsity 40PFLOS。然后HBM达到288GB。非常强大。使用全新的CX8 switch。 接下来是明年的Rubin,这个是sparsity的50PFLOPS FP4,288GB HBM4,更加强大的performance。以及double的NVLink,CX9 Switch,使用NVL144集群,密度增加。(如图3) 但更大的来了,Rubin Ultra,这是史无前例的大升级,100PFLOPS的FP4 performance,1TB HBM4e,对比GB300有14倍性能的提升,8倍的带宽提升,12倍NVLink7的提升以及8倍CX9 switch的提升,注意亮点,每颗Rubin Ultra是4芯拼接,Blackwell及Ultra,Rubin为双芯拼接。Rubin带来全新的Vera CPU,也是非常强大。全新的集群NVL576,正交服务器。NVIDIA创新不止,谁说NV集群不好?(如图4) 据我所知Ascend 910D还在用4个打一个B200,靠集群去救单卡的劣势,但是吧……我就不多说了,哦对了,我还记得很多人说过NVIDIA集群不行,那么接下来的技术会打破你的幻想。 接下来,更加强大的创新来自于与世界上最先进的Foundry的合作,NVIDIA Photonics Switch,Switch的创新,使用TSMC COUPE,硅光技术。TSMC的紧凑型通用光子引擎(COUPE)使用该公司的SoIC-X封装技术将电子集成电路堆叠在光子集成电路(EIC-on-PIC)上。铸造厂表示,使用其SoIC-X可以实现模具对模具界面的最低阻抗,从而实现最高的能源效率。EIC本身是用65纳米级工艺技术生产的。(如图5、6) 最后,2028 roadmap,NVIDIA,创新不止。 补充:DGX Station是小型工作室工作站,还有适合个人的Project Digits,都是非常强大的AI reasoning和微调的工具。 yy:没了,就这些,NVIDIA还是很强啊
关于WAWEI 也不知道一群人沸腾啥 这X90很简单嘛 X在罗马数字里代表啥 吧这俩颠倒一下 现在得出结论 简单的事情复杂化
哎wc,IMG怎么这么坏啊 哎,怎么这么坏啊,黑我通通 rt
我随便聊聊啊,最近一直在传Xring……,emm,有听说过,4月,我认为还是比较稳的。具体size啊freq不能说,但是我至少知道是TSMC N4P,至于N3E的,应该是next generation,然后我估计8400的multi core和Tensor G4的single core那样。我当然知道小米吹了很多年。不过机圈三大神话,Kirin回归,Apple Modem不也实现两个了。
M3 Ultra AI performance 两个满血M3 Ultra run DeepSeek-R1-671B-Q8达到20tokens/s rt
我对不起大家 我不够准,M3 Ultra不是WWDC,但是up to 512GB memory,跑DeepSeek-R1-671B-Q4全量没问题 M3 Ultra是Ultra Fusion拼的。
byd高通真要脸啊 这也能win? rt
水一期帖子 今天清理E-Mail看到的 rt Save up to $500 Surface Pro is faster than MacBook Air M3.**
13哥,有人黑高通 rt
加更文章预告 Apple Silicon的Frontend feature 作者—LITTERTREE66 (作者yy:一周更两篇万字文章是想累死我吗)
新文章预告 What is topological qubit?
what is topological qubit?
补充2:搞错一件事,A18(4Core GPU)比A18的G 补充2:搞错一件事,A18(4Core GPU)比A18的GPU Performance弱15%-20%。
A18(4Core GPU),GPU performance比A18低20%-25%。 Apple C1是TSMC N4,RF是TSMC N6RF。
Apple也有Modem了 Apple C1 TSMC N4
逆天价格…… iPhone 16e
神秘代码~ A18(4GPU),M3,A17 Pro 8+64,128,256 8+128,256,512,1 8+64,256
首页
1
2
下一页