小tree_666
小tree_666
关注数: 330
粉丝数: 562
发帖数: 3,209
关注贴吧数: 43
Oyron架构图 Stepping:A1B0
WWDC DAY2 DAY2有关AI的方面就多了起来,对ANE的quantization做了改进,用SD做的例子。Core ML进步还挺大。哦对,Apple还提了有关Apple GPU训练AI的事情,但不是Today。 rt
看了一下Apple Intelligence WWDC Day 1的Platforms State of the Union的Apple Intelligence部分,很有意思的一些东西,例如端测3B SLM,MoE(没听清是否有),4bit量化,再用ANE的FP16跑。估计得占个1.5-2GB,然后AI Cloud也用Apple Silicon(M2U)做推理。最主要的Mac用MLX做AI的训练,wow amazing。楼下附图吧。
M2U再就业 卖不出去的M2U拿去做AI推理服务器,明年再换M4U
intel架构图 P-Core stepping:A1B1 E-Core stepping:A1B1
标题五个字 架构图又被吞了
Samsung Exynos+Google Tensor dieshot picture1-3 is Samsung Exynos 2200-2400 Exynos 2200 dieshot stepping A0A2 Exynos 2300 dieshot stepping A0A2 Exynos 2400 dieshot stepping A0A3(修复了cache标注错误) Exynos2200 e9925 diesize 9.69x10.80mm=104.652mm2 Exynos2300 e9935 diesize 10.53x10.93mm=115.0929mm2 Exynos2400 e9945 diesize 10.61x12.95mm=137.3995mm2 picture4-6 is Google Tensor G1-3 Tensor G1 dieshot stepping A0A0 Tensor G2 dieshot stepping A0A0 Tensor G3 dieshot stepping A0A0 Google Tensor G1 diesize10.52x10.71mm=112.6692mm2 Google Tensor gen2 diesize 10.68x10.70mm=114.276mm2 Google Tensor G3 die size 10.71x12.62mm=135.1602mm2
ARM X925,A725架构图 stepping:A0A0
ARM新一代公版架构 如图,楼下更新 Cortex-X925和A725,X925有up to 3MB L2 cache,引入SME陪Apple刷分
ASML Hyper NA EUV IMEC ITF World 2024,ASML画了0.75NA EUV的饼,还有2DFET
Kirin 9010 diesize:116.818702 dieshot:还没
M2 Max SNL 如图 楼下补power
M4 P-Core架构图 看起来我还是准的,不过LSU错了,是分开的3ld 2st
Donan Voltage rt P-Core还有1.15V的4.512GHz的档,看起来得Mac来了。 图源:asto
重新预测一下New Kirin 以前预测太早了,变化还挺大。 Kirin 9100(?) CPU:1+5+2/2+4+2 (TSV-130+TSV middle+A510) (2.8+2.2+1.8) GPU:Mallone920 6CU NPU:Ascend middle+little 1+1 Modem:balong6000 SMIC:N7++(N+3)? benchmark G5:1400 5600 G6:1750 5800 CPU Power:5.2W 11.3W GFX Aztec 2K:41fps 3D Mark WLE:2100 GPU Power:8W
Apple Donan P-Core 架构图 stepping:A0A1 楼下补图
再谈M4和A18 Pro Apple在这代arch引入了SME,G6上面刷分刷的还挺不错的,但是我还是要泼冷水,SME通过FP的刷分带来了7% IPC improve,arch上改进了execution unit design,大概1% IPC improve,PA尽力了,IPC确实难提升。不如PD去给你OC,OC到4.4GHz,4.5GHz。 再说说SME,SME就是Apple PA带着ARM做的基础是从AMX来的,当然,M4,A18以后就SME ISA替换AMX ISA了,但是AMX hardware还在,SME支持256byte的FP instruction。在arch上其实就可以做不止以前NEON的128bit的FP,可以往256bit去做,毕竟SME支持256byte呢。(你可以把SME理解为ARM阵营的AVX512)至于power…… 最后说说A18 Pro,一句话,M4能跑3800≠A18 Pro能上3500,iPhone压不住的。对了M4的高阶会加核,SME越加核可能会衰减哦,香槟别开太早
我说什么来着 iPad Pro跑分来了 4.41GHz 3707 14523 这不爆杀X Elite?,而且有可能引入SME了,毕竟3700
预测一个小米自研SoC X4+A720+A520 1+3+4 3.0GHz+2.5GHz+2.0GHz Mali G720 MC7/10 1.3GHz G5:1530 5200 G6:2010 5100 single core power:4.8W multi core power:9.5W GFX Aztec 2K:51/72fps GPU power:8.6W/11.8W (据不可靠消息,这是小米自研的,没外援) TSMC N4P LPDDR5X-8533? Modem:MTK M80(外挂) Wi-Fi:Boardcom?BCM4388?(纯猜,反正不是高通)
每次到重要时候就吞贴 look wider decoder and execution engines so 10wide decode? 5FP?4ld?3st?
谁说M4没改arch的 请看keynote wider decoder and execution engines 所以,10wide decode 12ALU? 5FP?4ld?3st?
**苹果,靠 **啊
M4来了。 怎么讲
坏了,你通吧又夹我图 坏了,我的架构图又被夹了,怒了,其他平台发吧。
Nuvia Oyron架构图 架构图stepping:B0B0 (cache是由已知爆料推测) 作者:LITTERTREE66 作者yy:Nuvia和TSV是商量好的嘛?
谈一下M4 5.7可能发布的M4,分已经提前预测过了,不过,看起来我还是有点保守了。 so,G6:3600 15500 architecture就是A18 Pro的,可以放心,会有一些热,感觉应该不至于炸到A17 Pro和M3那样。至于AI,不用期待hardware上的改进,还是期待software吧
Exynos dieshot Exynos 2100 stepping:A0A1 Exynos 2200 dieshotstepping:A0A2Exynos 2300 dieshotstepping:A0A2修复一定的错误Exynos 2400 dieshotstepping:A0A0 特别鸣谢:@万扯淡 作者:LITTERTREE66 diesize: Exynos 2100 diesize 10.93x11.72mm=128.0096mm2 Exynos2200 e9925 diesize 9.69x10.80mm=104.652mm2 Exynos2300 e9935 diesize 10.53x10.93mm=115.0929mm2 Exynos2400 e9945 diesize 10.61x12.95mm=137.3995mm2 (很幸运,搞到了废案的Exynos 2300工程片,看上去2300完成度很高,估计是yield问题或者power压不住导致最后被砍)
谈一谈X5 ARM Cortex-X5有点意思。首先先解决X4的frontend和backend的空转,frontend这块,fetch和BPU,BPU靠double capacity给整体提4% IPC。rename&issues,搞一搞2%,backend那块,LSU+2%,FP靠SME做4*256bit SMID,提个8%,看看能不能凑出来15-20% IPC improve。
TSV-130(我自己起的名字)架构图 Stepping:B1A0 修复了一定的错误,增加了细节。感谢作者:@LITTERTREE66
发现好像根本发不出来A18 Pro和M4的预测 发不出来……
A18 Pro&M4 A18(2+4+5) A18 Pro 2*Tahiti(3.98GHz)+4E-Core(2.32GHz) 6*Apple 10 family GPU(1398MHz) 16core ANE(40tops int8) G5:2300 7150 G6:3300 8800 single core power:6.5W multi core power:12.3W GFX Aztec 1440P:83 3D Mark WLE:5100 GPU power:10.5W memory:LPDDR5X-8533? M4 4*Tahiti(4.2GHz)+4*E-Core(2.49GHz) 10*Apple 10 Family GPU(1398MHz) 16Core ANE(40tops int8) G5:2580 13240 G6:3500 15600 R24:157 828 single core power:7.3W multi core power:21W GFX Aztec 1440P: 3D Mark WLE:9820 GPU Power:16W memory:128bit LPDDR5X-8533 UMA
Kirin PC Chip 8*TSV-130(2.5GHz) Maleoon 920 10cu Ascend(big+lite 2+2) up to 32GB LPDDR5-6400(128bit)100GB/s up to 2TB SSD 3*USB-4 GB6:1580 11640(power:30W) GB5:1130 8765 R24:72 680 1695 3D Mark WLE:6490(power:20W)
density data 鸣谢kk@Kurnal
9010超大核初步测试结果 AndSPEC17(TSV-130) int 3.67 3.82W FP 6.44 4.74W TSV-130 int IPC 1.595 FP IPC 2.8 X3 int IPC 2.125 FP IPC 3.375 X2 int IPC 1.775 FP IPC 3.05 结论:可能打平X1,不如X2,远不如X3。 (注暂时称TSV-130为9010新超大核名称。) (附带TSV-130初步架构图)
Tensor G4 1+3+4 X4+A720+A520 (3.1+2.6+1.95) G6:1850 4800 WLE:2500 GFX 1440P:38fps efficiency+10%
Apple S8,S9 SiP dieshot dieshot stepping:A0A1 S8 diesize:5.40x7.37=39.061mm2 S9 diesize:5.70x7.27=41.439mm2 (图一:S8,图二:S9)
林檎恐被拆分 通吧的果粉通批互撕之前,还是看看你果还保得住不。
New Kirin预测 New Kirin CPU unit:2*P-Core TSV-130 3.0GHz(6/7wide decode 5ALU,5FP,2load 2store L1i 128KB,L1D 64KB L2 1MB) 6*E-Core TSV-130lite 1.8GHz (3/4wide decode 2ALU 2FP 1store 1load L1i 64KB L1D 32KB L2 256KB) L3 Cache 8MB GPU unit:MaLiang 920 6CU 750MHz (GPU L2 cache 1MB ) SLC Cache 6MB NPU:New Ascend NPU(1big+1small) ISP:Kirin ISP 8.0 Modem:balong 6000 SMIC N5 single core:G5:1400,G6:1800,Power:5.2W multi core:G5:4600,G6:4800,Power:12.4W GPU:GFX aztck 2K:54 曼哈顿3.1 1080P:188 3D Mark WLE:2800 Power:8.5W
更新D9300 dieshot dieshot stepping:A0A4 底图:@万扯淡 标注:LITTERTREE66 diesize:10.88x12.9=140.352
Apple可真是大言不惭 本地AI都没有,别人的AI拿过来吹自己AI强,第一次被不要脸到了呢
A17 Pro dieshot+coresize 在kk(@Kurnal )还有万扯淡的帮助下,总算是见到了A17 Pro的真die。数据都在下图。
猜个小米的自研SoC X3+A715+A510,Mali G720 MC7,TSMC N5。性能比8+强一点。应该不会去量产,毕竟收不回投入。
A17 Pro翻案 TSMC论文注水严重啊,Techinsights扫A17 Pro的晶体管就17b,结合113平方毫米diesize,那密度就150mtr,N4密度143mtr,这么说N3B真就提升个寂寞,那么这么说,Apple 9的面积效率就不算很拉。 为什么这么说,N3E官方标注是1.3x N5,N4是6%面积节约 N5,所以N3e对比N4 实际上就是M2P变化。并且林檎有考虑过2-1Fin,但有可能考虑后只用了2-2Fin。这点等我收到A17 Pro decap就知道了。
Exynos 2400 我看就S24,24+的欧版,中东,韩版,东南亚,南美洲,非洲,大洋洲用,性能还是可以的,就看功耗了。
8 Gen3 diesize 8 Gen3 diesize:137.32平方毫米
Apple Vision Pro发售临近 1.19预售,2.2日发售
K9000S,马良910面积效率 我最近发现,马良910的面积效率好像比老黄还高,华为的GPU设计实力不差啊。
更新9000SL 1+2+3 TSV big+TSV middle+A510
Kirin 830 Geekbench 5 被778G吊打秒杀。
Apple发布MLX 昨天林檎发布了自己的深度学习框架MLX
在酷安发的文章,不想在通吧发,不想和某狂热粉丝对线
对于燕十三觉得BP不重要这件事 BP在目前整个架构中非常重要,越往后,重要性越来越高,未来更宽的架构,需要更加强大的BP。强大的BP还可以避免流水线的清空。 对于燕十三觉得BP不重要,我想请问,你真的研究过架构嘛?(分支预测的支都打错我不怪你),很无语。
M3 Max满血Power 12+4+40版本 CPU:峰值顶着79W,第二轮R24,69W,第三轮65W,第四轮之后稳定50W
M3 Max Power M3 Max 4.05GHz 7.45W
感觉M3像Everest 4.02GHz,3000分,什么Everest
M3系列dieshot 我初步的画了一下第一版,说实话,M3 Max今年是提升非常不错,我M2 Max背刺背麻了,哭死。(PS:上一版忘打水印了)
10.30 Apple Event 有三款笔记本,我估计会发布13寸Air和14,16寸 Pro
预测一个M3系列 M3 CPU:4+4(4大4小)3.78GHz+2.11GHz。 GPU:Apple 9 10Core 1.4GHz ANE:16core Up to 24GB Memory(LPDDR5) M3 Pro CPU:8+4/12+4(8大4小,12+4小)3.78GHz+2.11GHz GPU:Apple 9 20Core 1.4GHz ANE:16/32Core Up to 48GB Memory(LPDDR5) M3 Max CPU:12+4(12大4小)3.78GHz/3.98GHz+2.11GHz/2.4GHz GPU:Apple 9 40Core 1.4GHz ANE:32Core Up to 128GB Memory(LPDDR5) M3 Ultra CPU:24+8(24大8小)3.98GHz+2.4GHz GPU:Apple 9 80Core 1.4GHz ANE:64Core Up to 256GB Memory(LPDDR5)
A17 Pro GPU猜想 我怎么总感觉这个GPU是两个shader是一个unit,假设一个shader是128ALU,那么总共是1536ALU,和Adreno740一个规模,但是如果我没记错,A17 Pro GPU好像是1.5-1.7GHz的频率……然后跑出的性能十分逆天,所以我觉得一个shader是64ALU,总共768ALU,但是这个面积……算了血压高了。
A17 Pro dieshot
首页
1
2
3
4
下一页