Valley.Sun jsntrgsyd
IntelSeniorEngineer→AzureSeniorPM1→IntelPrincipalManager(DEG_TA)
关注数: 59 粉丝数: 737 发帖数: 9,306 关注贴吧数: 39
赛博斗蛐蛐之外谈点东西 制程升级道路上的多快好省,但是计划赶不上变化 本着一切向钱看的原则,intel在12年规划了后续十年的制程大跃进,DUV用到初代10SF(不现实的高密度指标版),17/18年一代EUV介入(过渡≤2年)用于非关键层,转二代HighNA并在18个月内实现量产!并在17-23年内开发适用于后续7/5nm的新材料新技术! 多快好省,期间不大量采购0.33NA EUV,实现技术通用化,材料逐步升级,10nm节点高密度设计维持甚至降低成本以完成董事会要求的60%利润率,同时HighNA应用技术支持从10nm长节点用到5nm。 (这里的制程节点指的是标准节点,并非现在的商业宣传口径) 这一规划的前提是HighNA在20年底能顺利交付原型机,然而现实让intel 差点坑死自己(CEO背锅 20年12月解职),HighNA ASML17年初正式立项,到20年Q2宣告搞不定,延期2-4年,最快23年初最晚24年初交付原型机~这会儿intel想再批量购入0.33NA作为过渡期生产,已经太晚了,ASML的0.33NA量产机订单供不应求+疫情导致的交付延迟(最长30个月),哪儿来货批量交付给intel(2018年EUV intel只预订了3台)! 这样规划的出现,是因为06-12年间Intel在65/45/32/22nm的高歌猛进般顺利开发,以及Core架构奠定的十年稳健,董事会开始不懂事了,直接开始大跃进! 其实在14nm开发上,就有不顺利,虽然只延期了6个月,但已预示着后续高密度10nm的艰难,老板们坚定的要用DUV上超高密度的10nm,还顺便开掉了一批经验丰富的项目经理,换上了阿三~因为大家都说>100密度的DUV真干不了,降低到92 还能试着搞出来~ 台积电在其中很明智的选择了大量吃下 0.33NA EUV(70% 到现在150台的样子),7nm(N4)之前都能干,N3可以试着搞,只要有大客户捧着~
从头开始讲Loadline Intel CPU在出厂时就内置了一张倍频-VID电压表,它定义了CPU在使用某个倍频时,向VRM(主板供电模块)索取的VID电压值。 供电模块Vout 到CPU Die的路径的铜箔是有电阻的,会导致电压会下降,而且每个主板的制造都是有误差的,导致这个实际阻值是不同的,为了所有主板都有统一的供电行为方式,Intel定义了一个虚拟电阻,让不同的主板的VRM都统一的根据该虚拟电阻的阻值来控制掉压行为。这就是AC LL。默认为1.1mΩ DC LL是个什东西呢?CPU需要计算功率Psys并提供出去,直接用ACLL增压后的电压是不对的,这是预先补偿电压值,那么DC LL就是要把ACLL升压后的电压模拟降压,得到一个更接近于真实电压的值,用于计算功率!AIDA64的传感器 电压项目中的 CPU VID 就是这个计算后的系统电压值。DC LL默认也是1.1mΩ VRM LL 或者叫LLC (CPU Load-Line Calibration)俗称防掉压,因为CPU无法完全正确预测负载需要的电流,所以向VRM申请电压也是有偏差的。 LLC就是用来矫正的系数。intel默认值还是1.1mΩ 举例:CPU想向VRM请求1.10v的电压,CPU会根据任务负载要求提前预测自己需要的电流,假设为100A,那么向VRM发送的sVID电压实际就是1100mV+100A*1.1mΩ(ACLL)=1210mV,然后1210mv的实际VID电压经过VRM Loadline掉压后,刚好拿到1.10v的die sense电压。 接下来名词解释: “裸VID”,即CPU内置的原始电压表数值,是数字信号; “实际VID”,是“裸VID”被CPU使用其预测的电流和ACLL阻值,进行掉压补偿/升压后的VID, 是发送给主板VRM的实际VID数字信号 “实际VID” = “裸VID” + CPU预测的电流 * ACLL; “实际VID”被发送给主板VRM,主板VRM将其结合VRMLL输出实际电压,即die sense电压 die sense电压不是数字信号,是一个实际的电压值, die sense电压 = “实际VID” - 实际电流 * VRMLL; CPU无法感知die sense这种真实电压,但可以感知实际电流。它利用DCLL计算来近似die sense电压值,即systemVID电压,也是数字信号 sVID电压 = “实际VID” - 实际电流 * DCLL CPUz里的电压叫Vcore,来源是主板上的SIO芯片,不同主板的SIO芯片会选择监测不同的电压点,这些点与CPU的距离不同,主流就是die sense、vcc sense、socket sense这三种,用的是哪种需要看主板型号。与CPU核心的距离从近到远为die、vcc、socket,离cpu越远,阻值越大,因此探测到的电压数值上,die < vcc <socket。 比如在socket sense探测到的电压是1.2v,电流从此处长途跋涉走过一大段电阻来到CPU内部,电压已经掉的只剩下1.15v了,那die sense探测到的就是1.15v。VRMLL的控制对象是die sense,所以socket sense只是主板供电为了得到指定die sense值的一个电压中间值。
关于换大容量电池与充放电设计 有人追着我问IC型号 我就纳闷了,问型号干嘛,电池3串还是4串这是笔记本充放电设计技术标准决定好了的,跟IC型号有啥关系? 充放电常规参数: 宽输入范围 3.5v至24v, 最高耐压可达29v (以上数据根据厂家节约组件成本可进一步压缩范围) 正向充电或反向放电时支持降压模式、升压模式和升降压模式 管理1至4节电池充电, 支持预充电、恒流充电、恒压充电。 支持宽输出范围3v至20.8v 兼容intel IMVP8/9规范 笔记本板上电压主要为12V/5V 根据性能需求区分 Adapter接入下叫高供电(电压高电流大)支持全功率运转,Battery供电(电压低电流低)叫低供电建议低功率节能运转,笔记本电池几乎不会使用动力电芯,放电倍率0.5-1~这也是为什么大容量电池许可功率更高的原因 目前笔记本上分传统并联充放电模式和NVDC模式 先谈传统模式也就是系统直接在电池端取电 两个缺点:1 首先是电池电量完全放光的时候,连接适配器后,需要先对电池充电,电池电压达到最低工作电压后,才可以开机;2 输入电流同时为系统和电池供电,开机下充电影响电池的充电速度,并且在开机下会频繁的对电池充放电,加快电池老化,降低电池寿命 所以商务机厂家很早就在EC增加充放电阈值,比如ThinkPad! 再谈 NVDC模式,电池端和系统负载之间新增BATFET,在电池电量归零适配器接入时,以线性充电模式涓流为电池充电。就是同步升降压输出一个比较低的电压为系统供电,该系统供电电压通过BATFET为电池进行线性充电。再电池电压上升后,BATFET短接电池和系统供电端,转为电池正常充电。电池充到指定阈值后,关断BATFET,切断电池和系统的连接,只由适配器为系统供电,延长电池寿命。
Turing架构有感 先吐个槽 老黄的WP的TuringSM示意图一定是临时工画了··漏了重要东西·· 还得再回头看前面的SM文字表述 图中的L0/ L1 指令缓存不见了 L0指令缓存是起于Volta SM 64SPs 四分组添加的 Turing去掉绝大部分FP64后缩减了一半LD/ST,砍掉了32K Shared $·· (Volta是128K分为L1 32K、 shared 96K,Turing是96K分为L1 32K 、Shared 64K) 修正后Turing SM其实老黄的官网仔细阅读每个页面可以收获很多的 比如这句话出处:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.nvidia.com%2Fzh-cn%2Fdata-center%2Ftensorcore%2F&urlrefer=c43f4d38bea75ccd07cc0c3131425b6d Volta白皮书机翻一下 FP32和ITE32操作的同时执行 与PascalGPU不能同时执行FP32和INT32指令不同,Volta GV100 SM包括单独的FP32和INT32核,允许在全吞吐量下同时执行FP32和INT32操作,同时增加指令发布吞吐量。对于核心FMA(Fused Multiply-Add)数学操作,依赖指令问题延迟也减少了,与Pascal上的六个周期相比,Volta上只需要四个时钟周期。 FP32 50%效率提升是从这儿出来的·· 从GV100发布以来,一年了,又过去六个月了··到现在才搞定开发工具的可用性··· 而到目前为止适应新架构的显卡驱动400系列 还没公发 GV100无论是Tesla还是Quadro版中 Tensor 几乎当电阻丝这么长时间·· 没记错NVlink的GV100也是16项供电吧·· 当然对于GV100本身的开发用途 没影响··· 为美国能源部 E级HPC开发的FP64性能核心 所以 1、Tensor的消费级应用接入才是性能巨大提升的新增长之路,而且效果会很显著 2、传统CUDA效率提升之路,到Volta的FP32/INT32独立调度,使得FP32在任何情况下度可以跑满峰值,而不是以前CUDA中FP32实际只能跑到峰值70%左右的尴尬点·· 3、RTCore是未来之光,目前性能够用的只有那个50万美元一台的RTXServer· · 即使按照8光线/像素来算,4K 近830万像素··再折算即30%面积像素投射量算也要1992万光线投射量/画面~ 如果遇上4k 风景类那几乎是100%面积需要光线投射···不敢相信 所以现在还是谈谈1080p这种207万像素的画面吧 所以老黄说一句Do not expect hundreds of rays cast per pixel in real-time. 目前单芯片才10Giga Rays/sec 看清楚是每秒··60fps是每秒60张画面···也就是0.167GR/p··· 还是靠Tensor AI脑补靠谱点···毕竟那么庞大的FP16/IN8专用算力··
1 下一页