有沙口我不说
watcher4396
高通吧管理都是酪蚕-÷
关注数: 25
粉丝数: 44
发帖数: 3,900
关注贴吧数: 4
谈一谈神秘的国产工艺 先来比比sram密度 2MB的sram面积约1.4mm2,实际sram密度约7ff的一半多点儿,4ff的一半不到(也符合n7—n5 30%sram提升) 就sram密度来讲甚至稍逊于10ff和10lpe(10lpe强于10ff)这也符合主要pitch指标基本平10ff弱于10lpe。但是不符合6T,10ff和10lpe分别是8.75 8.25T,按理说6T的sram密度应当更高,但是却逊于友商10nm,所以sram可能并不是基于6T的高密度库制作。 整体密度的话还是认为会逊于n7 在80mtr附近
zen5 apu的规格被确认 cpu 最高4+8 gpu最高16cu 1024sp gpu里有俩有趣的地方 一是tmu规格是随着规模变化是复合amd的渲染器结构的,但是ROP的数量减少了,和tmu的比变成了1:4,rdna都是1:2,这个比值反而更接近gcn 二是可能存在一个外置的显存作为eram
8g3到底几从集 三星版本有三颗720干到了3.15g,剩下两颗2.96g 普通版本是五颗2.96g
rumor 天玑9300 gpu能效提升25%(对比9200)
Estimate of A17 已知消息 2+4 6cu gpu 8g超大内存() 首先看gpu 依据① m系标准版gpu频率和a系同代保持一致,m3传闻提升为25%—30%,那么很大概率频率为1.5g(10cu到12cu) 先假定1.5g 即6cu 1.5g 依据② 传闻a17 gpu性能大于等于m1 7核版 上面两个依据可以相互印证 最终得出性能大约:曼哈顿3.1 245~250 wle约4100—4300 再谈cpu 我认为leak频率3.7g是对的
从华子命名方式角度驳斥k9010/9100的说法 华子不管tob还是toc产品,连贯的产品线是服从3 6 9等级规则的 不论是昇腾610 910,智驾芯片mdc310 610 910 鲲鹏系列,都服从这个规律 这次gpu代号maleoon910,已经是最高级别代号了,华子同级别内会通过后标的方式来区分规格,并没有,改数字就代表不是同代架构了。 所以这一代不会有更好的产品了
来谈一谈smic的制程问题和之前营销号最爱的“堆叠” 先来讲讲smic的制程问题,感谢techinsights和密涅瓦,才让我们能了解到smic制程的具体情况 工艺技术的三个关键间距是鳍片间距 (FP)、接触式多晶间距 (CPP) 和金属 2 间距 (M2P)。中芯国际的FP间距比台积电10nm FP大,CPP和M2P与台积电10nm相同。但是它的track height(或者叫tracks,轨道高度)只有6,远小于友商10nm制程的8.x,台积电的n7或者三星5lpe才实现了这个高度缩放,同时还使用了dtco和sdb,这都是n7所没有的。得益于高度缩放和sdb的应用 在密度方面smic实现了89mtr的hd逻辑密度,非常接近三星7euv和n7 综合来讲smic的“初代7nm”可能是受限于材料和技术问题,间距部分只有10nm级别,但是通过高度缩放和先进技术运用也能获得n7级的工艺密度,并且后续进行各种pitch缩放没有额外的瓶颈,可以期待一下下一代制程。 结论:n+1是一个有7euv密度的8lpp(梁孟松虽然是漏电元老,但是后续是在三星服务,所以带到台积电的工艺应当是接近三星的,从中芯14nm也能看出) 预计n+2可能是一个拥有n6级别密度但是性能略差于n7的产品
三星最近制程进步的很不错 sf3和sf4的良率都大幅提升了,如果ee time的报道没问题,那个转载的韩媒报道也没问题,3gaa良率要高过n3b,sf4良率来到了75%,而且sf4接到了一个ai企业(应该不是头部),一个数据中心企业(大概率是amd)的订单,总算能运行起来了
又有**急眼了
zen4m(phx)的功耗/频率对照(stress fpu负载) 8c 20w 2.4ghz 45w 3.8ghz 50w 3.9ghz 54w 4ghz跳4.025算4ghz 75w 4.4ghz 85w 4.6ghz(80出头就能跳4.6ghz但是不稳) 可以发现在45w-85w一段基本是0.1ghz提升5w 都不用回归就能发现相当的线性,还是挺有趣的
gb6单核分数提升貌似与ios17并没有关系 gb6.1别的设备也有类似的单核提升🤔
果子为什么不通过支持CXL来扩展ram容量 CXL内存今年来陆续发布,虽说速率会比较有限 但是容量就能拉满了,把多的pcie插上cxl内存扩展卡就能做到2—3T的内存了 (顺便还能多卖钱,一张512g cxl内存卖2999刀不过分吧)
果子macpro不能插显卡基本等同于苹果暂时放弃AI算力了 果子16核NE 15.8T(ultra翻倍 31.6T)这个规模对于现在力大砖飞的AI来说太差了,2016下半年发布的xavier单颗都都有这个水平了,而pcie槽禁显卡代表着不能请外援,虽然a卡这块也挺烂的但是好歹也有专门单元了。 苹果这点AI性能最多跑跑内置的通话特效扣图ai降噪之类的功能,训练模型或者跑模型都差了意思,在AI时代快速展开的这个阶段稍稍有点落伍了
n32移动 RX 7800M XT 60 CU 16GB 165W RX 7800M 54 CU 16GB 150W RX 7700M 48 CU 12GB 140W RX 7900S 60 CU 16GB 135W RX 7800S 48 CU 12GB 120W
发哥和nv达成合作了,不过仅限汽车智能系统 发哥短时间内还是玛丽为主咯
某些吧友吹的40%功耗下降 Cortex-X4 is the most efficient Cortex-X CPU core ever built, with 40 percent better power efficiency². ² Indicates Cluster Power savings at ISO-performance for SPECRate®2017_int_base. Comparing Peak SPECRate®2017_int_base performance for Cortex-X3-based Android flagship device shipping as of March 2023 vs Cortex-X4: 2MB L2, 8MB L3, 3.4GHz, 100ns 自己体会问题在哪
x4的数据脚注 X3-based Android flagship device shipping as of March 2023 vs Cortex-X4: 2MB L2, 8MB L3, 3.4GHz, 100ns latency.
台积电n3b n3e制程信息总结 首先是n3引入了SAC(漏电之前居然没有,intel),简单来说就是缓解门和栅极之间对不准带来的问题。 然后先来说n3b,n3b的标称栅极距45nm,实际触发范围45—47nm,如下图一,在cpp 45nm下(相当于n3b的hd库)实现了vmax的大幅提升和频率的提升 然后n3e的密度问题,n3e有21 22 32三种fin,48nm 54nm两种栅极距 其中高密度库的21 48nm cpp 143nm高度 能来到210+mtr密度(图二),逻辑密度提升了约56%,基本符合台积电的1.6x宣传,中档的48nm cpp 169高的均衡库是180+,而高性能库54nm cpp仅有120mtr(图三)了,只和intel4 hp相当,使用高性能库很不划算。
漏电的N3 N3e分析 https://fuse.wikichip.org/news/7375/tsmc-n3-and-challenges-ahead/
根据vdcz的数据7600也太菜了吧 ts 10.7k
台积电VLSI2023论文总结 密度:确实没啥提升,图上样片的密度是27.6Mbit/mm2 甚至还不如n5 主要提升在于引入的新技术 分别是 far-end bitline pre-charge circuit远端位线预充电电路weak-bit tracking circuit弱位跟踪电路 前者的作用是增加布线电阻,后者的作用是提供DVFS的宽幅电压(如图所示0.48v到1.2v)和更高的电压灵敏度 转换到实际芯片产品上效果是sram的高带宽性能有很大提升,待机的能效也有显著提升,并且切换不同档位的响应也更加灵敏
7600发布前信息总结和预测 核心:n33 流处理器数量:2048(满血了) 显存位宽:128bit 显存速率:18gbps 288g带宽 ifc:32m tdp:175w 接口:4.0x8 性能预估: 依据 笔记本端实际频率2.4g多一点点 130w对应ts1.03w,tdp 175w差不多能到2.7g+ 那么性能预测为 ts 1.16—1.18w pr 5.6k—5.7k 比较接近3060ti gd6的水平 参考加麻大那边泄露的价格444cad,约人民币2300,考虑到加麻大还有消费税等因素,国行起售价格大概率1999,除非苏🐴不当人
从m3pro的leak看a17应该提升还行 (彭博社消息)根据 App Store 开发人员收集的数据,至少有一个版本的新平台被发现配备了 12 核 CPU、18 核 GPU 和 36 GB RAM(推测为m3pro)其cpu组合为6+6 那么a17很有可能也增加俩小核(应该是小核簇改进了),来到2+6,按照m系pro和标准版的关系,m3的gpu就是12核了 那么a17大概率是6核,并且内存支持很可能也会提升至lpd5x 整体来说提升还行 不过gpu最好得加到8核才能去和Android这边卷王比一比了
三星3nm gaa的性能最终确认了 3SF(gaa)的论文来咯 +22 -34 密度+27%
iPhone15pm的cmos有点说法 尺寸1/1.14 48mp这个已经众所周知了 1.4μ的像素面积 主要特性支持硬件14bit dng raw和软件16bit raw(不过单张容量会相当恐怖,不知道苹果会不会降低单位存储的价格),大概率会支持12bit的真杜比录制,对比989拥有两倍的比特率。 这一切全部得益于这次imx903支持large fwc特性,说人话就是高阱容,imx989的1.6μ单位像素只有12ke的阱容,而hp3,0.6μ的像素就有10ke的阱容,这也是这次s23u不再拉胯的原因之一。而imx903的1.4μ像素,拥有接近40ke的阱容,a7r4的6100w像素全幅,拥有3.76μ的像素尺寸,不过拥有36ke的阱容,可以说是吊打单反了() 得益于cmos素质的长足进步,这次果子录像肯定是大幅提升了,就是不知道拍照能不能好好调一下
rdna3的能效不是很友好啊 rx780m 2.8g甜甜圈44w(可能触发了功耗限制) 游戏40w,跑2077这种吃CPU的游戏package能到80w,已经不适合轻薄本来玩游戏了
吧友们来预测一下oppo“自研”soc 首先讲一下为什么自研要打引号,oppo的soc是由发哥代理,由发哥流片,返片验证(已经返了),按照消息推断gpu架构来自img,cxt或者dxt。自研水平和我米差不多少。 以餐馆举例 wawei是拿着一部分买来的原料,自己动手炒了一盘菜。 我米是拿着别人留下的原料和菜谱,自己炒了五次都失败,最后放弃了。 oppo则是请来的厨子(发哥),用厨子自备的料(arm cpu架构和基带等外围),加上自己买的gpu原料(可能也有isp),让厨子炒了一盘菜
来个搞的。
👴复出的第一次选择题时间 从realme给出的选项看看各位偏好的充电组合 1.5500mah 100w 充满约35min 2.标准 5000mah 150w 充满约18min 3.240w版 4600mah 11min+
明示了,dell已死,宏碁跻身新一线
你吧吧务到底有没有用啊?没用早点滚下去,别占着位置不干活
来的6g1的评价
龙芯下一代cpu预计单核ipc会达到zen3/a78水平对比3A5000提升68% (顺带提个乐的,intel从四代haswell到12代golden cove总共还没提升到这个数)
讨论贴:苹果会不会将gpu架构换代,如果换代你觉得会怎么改进 (什么叫换代: 例:maxwell到pascal算,turing到ampere只能说架构改进,比如a15的gpu只能叫架构改进)
amd的笑话乐完了,还是看看远处的arm吧通子8g2已经挺明 amd的笑话乐完了,还是看看远处的arm吧 通子8g2已经挺明朗了,1+2+2+3 a740 680/759两种可能频率 果子a16,发哥9100目前还不是很明朗,可以大伙畅想畅想
AMD这个ipc我真绷不住了,22个子项目10个游戏,没sp AMD这个ipc我真绷不住了,22个子项目10个游戏,没spec。 zen4的理论性能测试只有 avx512刷分 vray r23 吃架构的浮点测试 gb5 aes刷分 cpuz 1% ps pr测了还算要点脸 游戏这玩意,部分游戏,同一个u靠内存升级都能提升10—30%。
讨论讨论adreno的未来 目前a740规格已经板上钉钉了,规格+50%,来到768alu x3,也就是等效1536sp,传8g2上的a740频率为680(有说740),wl说性能为210,8cx g4也使用a740,不过频率会提升很多,传频率为1.2g。 那么再往后呢,规格的提升需要跟着制程提升和带宽提升走,不能随意增加,并且会降低最低频的能效。 高通很早就调整了alu的比例,继续fp32翻倍提升会非常小,能效甚至会较大幅度倒退,这条线是走不通的。 同时单sp ipc对于高通这种sp规格来说也到了高原期了,想要提升代价不如增加规模了。 那么应该怎么提升呢,我先举两个例子: 1.pascal和maxwell maxwell到pascal的提升堪称奇迹,cuda规模甚至同级没有特别大的提升,除了有制程的跃升,架构ipc的提升外,还有一个不容忽视的点,频率的大幅提升,maxwell显卡的基本盘(小超)在1.3—1.4g,pascal则来到了1.9—2g,40%的频率差距,甚至功耗还更低 2.rdna1和rdna2 以57xt和67xt为例,都是2560sp,制程也都为n7系列hp库(密度接近,但是晶体管数量navi22提升70%,面积差距不小),抛开上面不谈,并且rdna2由于架构的改进,甚至同频ipc还要略低一点,但是navi10的频率基本盘只有2—2.1g,navi22自动boost便能来到接近2.6g,制程没有什么提升,频率提升30%以上的同时,功耗甚至还下降了,前者要225—250w,后者只要200w 讲了这么多,再回过头来看睾通的adreno,从adreno430开始,有没有发现最适的工作频率永远保持在470—670这个区间里,尽管制程在不断进步,架构的“性能甜蜜点”基本没有变化,友商苹果很早就保证了800mhz就能保持的惊人能效,峰值频率就算冲到了1.4g(m2)能耗依然在可接受的范围内,而以a730为例不说做到1.4g,做到1.2g,就需要至少13w(这还是估少了,提升33%频只提升了60%的功耗,高通的性能功率线早就脱离这种缓坡了)而M1 同样规模,1.278g也不过10—11w,甚至架构ipc还要高一点。 所以,个人观点:高通未来的提升方向只要着力于架构频率的提升,就有非常大的升级空间,只需要把频率/功耗做到苹果等级,靠着现在更高的同规模面积效率,就能在全频率对抗苹果。
有无8+的频率/功耗表之类的,想拉个线看看1.2ghz什么样
genoa跑了r23 3.76g单核睿频 ST分1302假定 genoa跑了r23 3.76g单核睿频 ST分1302 假定同样是5ghz,zen4的st大约是1731,zen3约为1650,ipc提升约4.7%,符合之前的计算,5.7g的zen4 ST约为1973分,对比zen4的最高单核提升也有19.6接近20%了
查了下后台频率(都是3.5g)以后小算一下,avx512在gb5里对fp基本没影响 不用考虑,内存升级到d5和缓存容量性能提升的影响先抛开不谈 zen4 96c旗舰对比7763(无外置缓存)单核性能int ipc提升4.29%,fp ipc提升3.37%,gb5扣掉加密刷的分,ipc提升3.52%,算上加密分提升8.6%(3.5g加密怒刷1400分)(这个加密的ipc比cypresscove高了不少)
从gb57773x ST 1339genoa 96c es 从gb5 7773x ST 1339 genoa 96c es ST 1464(这俩的默认boost频率一样3.5g,注意,并不是实际单核频率) 来看zen4确实基本没有“传统”ipc提升,因为zen4支持avx512 这玩意可以刷fp和加密分,rkl就是512刷分,5g gb5 1791,5950x 4.95g(默认单核)只有1620,实际上rkl ipc是略低于塞尚的,gb反超全靠512刷分 同时这个如果是同频情况下,正好符合amd ppt的8—10% icp提升
hm2已经够傻了,hm6居然缩到1/1.67,属实逆天
传 navi31 GCD面积350出头 MCD面积约为40与 传 navi31 GCD面积350出头 MCD面积约为40 与之对比,去掉杂七杂八的navi21的gpu核心计算部分的面积是375 考虑到n7hp到n5hp 60%左右的密度提升,计算部分晶体管数量提升约为45%,符合规模+20% fp32翻倍的晶体管数量变化(其实还有点不符合,比预期的要少,说明晶体管利用效率有一定提升),某些a友畅想的12288x2只能说,挺逆天的。 GCD能+20%核心数量 fma翻倍,面积还小了7%,除了制程的提升,也得益于分离了控制器和sram,从而使得RDNA3可以消除 RDNA2中一些不必要的部分:XGMI、全局数据共享 (GDS)、旧版的几何管道或旧版的扫描转换器。提升了晶体管效率 标记为rumor,不过真实性算是比较高了
今年骁龙峰会11.15 今年骁龙峰会11.15
我发表了一篇图片贴,大伙来看看吧~
直板时代是不是该回归了,现在新的cop工艺可以把直板的边框从原来的左右略小于苹果,上下略大于苹果提升到上下左右都没有苹果的一半,观感已经完全提上来了,曲面屏除了握持舒适以外更多的是为了曲面而曲面了。
对于rembrant 8c25w 3ghz 3.125w/c 对于rembrant 8c 25w 3ghz 3.125w/core 54w 3.9ghz 6.75w/core 90w 4.35ghz 11.25w/core 从3g到3.9g 30%频率 116%的功耗上涨 从3.9g到4.35g 11.5%的频率 66%的功耗上涨 从3g到4.35g 45%频率 260%的功耗上涨 这还是15级流水线 讲这个就是为了说一下,对于arm手机soc,可不能乱超了,x3都9级流水了,还想着超频呢
从rdna3看mcm小芯片时代的新思路 在制程逐渐走向瓶颈的现在,mcm封装技术成为了未来性能大幅提升到必由之路 插播一下:tsmc在今年制程大会上提出了后续提供新2.5d cowos的服务,为高性能mcm和hbm内存堆栈提供帮助。 目前我们能看到的在市售或者已经有介绍的mcm芯片大致有如下图几种情况: MTL就是把原本的cpu的几块部分拆分成小芯片,通过foveros 3d封装在一起,是最循规蹈矩的方法。 M1u则是直接把两块完整的soc通过互联接口用高速“胶水”互联,简单粗暴。 intel的p什么玩意,就是那个hpc,则是单纯的炫技,没有什么实用性。 rdna3架构为我们提供了新的角度:内存(显存)控制器可不可以不在io上? 长久以来,ic市场的ram控制都是以UMC为主导,强调内存控制的整体性,随着带宽需求的膨胀,除了永远128bit的x86 pc,位宽整体呈现膨胀的趋势,苹果M1系列128/256/512bit就是最好的证明。膨胀的内存控制器占用了不小的面积,512bit的pny甚至面积要超过一般的入门级soc。 rdna3采用gcd和mcd分装的方式,gcd是纯粹的计算单元,mcd中包含32bitx2的gddr6 pny和高达64M的高速三级缓存,说sram也对。因为ram的层级是从ram到可能有的sram,到总线上的L3或者L2的缓存池,再进入到核心前端,实际上只要总线能高速访问ram,内存性能并不会受到明显影响(如zen架构,用的chiplet,虽然有一丢丢延迟和性能影响,但是得益于大缓存的帮助,总体表现很不错)而MCD模式还有自带的高速缓存,只需要io和高速缓存通过硅互联高效连接,内存效能得益于高速缓存还会有大幅度提高。 MCD是一个相当高明的设计,减轻io的面积压力,也能通过额外的缓存提升ram性能,尤其是延迟不敏感的gpu性能,在后续的mcm soc设计里完全可以把pny和slc扣出来做成独立tile,甚至还能再贴个基带,还能连接cmos给cmos提供高速缓存从而提升摄影和拍照效果,是一个具有优越性的方向
手机等便携移动端的硬件光追到底有没有用? arm新发了g715构架 其中10—16cu的被归入新系列immortalis 拥有硬件光追单元RTU,号称性能提升三倍。不少吧友分享了这个信息,也看到了很多吧友的留言怀疑其实用性。这里就来掰扯掰扯,手机平板芯片的硬件光追到底有没有用 诚然,移动端gpu,区区二级光追(可能只有1.5级),加上较小的规模,低功耗,物理性能也不算高等等debuff,它的光追性能是相当孱弱的。想要以全局反射的“真”光追,进行720—1080p 30帧高质量光追游戏都是相当困难的事情。 但是光线追踪不仅仅是在现在大作上呈现的那样,通过设置光源来进行真实反射。ray tracing也是渲染的手段,比如经典跑分软件cinebench 就是通过cpu来解算光线追踪进行渲染,渲染的成品二维图获得了非常高的质感和真实感。这里就能引入一个概念,混合渲染。 渲染方式目前大体有三种,光栅化 计算着色器 光线追踪着色器。将光栅化和RT相结合,便得到了一种混合方式 oppo在去年“发布”的光追,便是通过这种方式实现的,被“追踪”的光线并不是依据点光源进行的空间遍历,而是光栅渲染的3d图形的材质和阴影。把材质和阴影通过光追的质量呈现出来,从而以较低的光栅需求获得高精度的材质和阴影表现。这就是手机端光追的意义。 在此之外 RT的应用也不止于游戏,光追能让AR增强现实的呈现和手机滤镜拍摄更加真实,当然这块Android厂商就纯飞舞了,和arm没关系啦。 总的来讲,随着发哥设备的部署,和可以预见的苹果 高通(三星已经rdna2😄)逐步部署硬件光追还有目前主流soc已经支持软件光追。一个属于低功耗光追的生态会逐步建立起来 未来可期
这次终于起作用的DSU110是什么 DSU110其实是x2同期发布新的DSU大更新(这玩意貌似是和小核一起更新的,结果小核拉了) DSU-110开始采用双向双ring传输结构(相当于把zen的ring die拼起来了),包含4个ringstop、支持至多8个cacheslice,这就是支持最多8个大核(超大核)的原因。 通过双向双ring L3容量 L3带宽 单核多核带宽均有明显提升,同时功耗还能下降,这都是常规提升,尝龟。
arm发新后的总结与展望 千呼万唤,在晚了大半个月之后,arm总算公布了自己的新一代架构 分别是超大核 cortex x3 大核a715 refresh的小核a510 gpu则是推出了新的 支持硬件光追的immortalis系列,区别于mali immortalis g715 (10—16cu) mali g715 (7—9cu) mali g615
高通全新技术Kyro Adaptive Multi-thre 高通全新技术 Kyro Adaptive Multi-thread Efficiency,简称KAME,音同かみ,神一样的技术。 可以在不同性能段获得自适应能效比,从而一直赢。
从M2看未来更高规模手机soc sram缓存的重要性
真有啊可以算是mcm和3d封装的首战了,看看落后制程加先进封装能提升多少
我发表了一篇图片贴,大伙来看看吧~
我发表了一篇图片贴,大伙来看看吧~
事实证明确实存在偏向api的架构优化以a350m和xe ma 事实证明确实存在偏向api的架构优化 以a350m和xe max为例,都是768sp 前者2.2ghz 后者1.65ghz 频率差距33.3% a350m在firestrike(dx11基准)中对比xemax提升20%,在ts中领先约75% 甚至可以说dx11发生了倒退
今年就产品线的差距,蓝绿高下立判了,刘作虎果然是纯纯的飞舞
怎么发不上 怎么发不上
貌似被屏蔽了
1
下一页