朴素的圆 朴素的圆
关注数: 45 粉丝数: 374 发帖数: 21,262 关注贴吧数: 231
intel高级工程师解释为什么要取消SMT 数字是一个约值,因为不同的场景和应用会对SMT的性能产生影响,但这就是一个平均值或经验规律 对同一核心,不开启SMT,ppa都是1 开启SMT使IPC为1.3,功耗为1.2,面积为1 取消SMT设计,IPC为1,功耗为0.85,面积为0.85 ⭐️️取消SMT的设计与另外两种对比,ppa分别提高了38%和6% ⭐️️取消SMT设计与开启SMT设计对比,在性能上领先,在密度上落后 -- SMT设计有一定复杂性,并且有安全风险,取消SMT可以提高改进架构的效率,降低维护成本,这是一个消费者端为主题的讨论 在数据中心中,因为客户需要线程密度,所以仍然有SMT如果有一个很大的工作负载,95%是并行,5%是序列,你会感觉SMT很好,因为SMT是99%并行的 让我们来看8核的情况,并行的工作分成了8份,所以需要处理12。而序列不变所以仍然是5,得到一个不错的性能17。 当你调用SMT,并行工作提高了25%,但序列部分降低了,因为一个线程只能使用半个核心,因为另一个线程在暂停循环 所以SMT不仅关乎运行速度,也关乎等待的效率。所以在线程等待中速度下降了20%,序列的5变成6 所以SMT在8核设计中还可以,但当规模扩展到32核,SMT实际上会减慢你的速度 所以物理核心越多,SMT实际上会阻碍你并行化缩短时间的能力,因为你总是有一个序列部分。总是没有完全并行的情况。 所以当我们每个插槽有1个核心到4个核心时,SMT是一个大事,现在我们大多数插槽都有8个核心,最低8个但大多数超过12或16个核心。SMT就失去吸引力了。这甚至忽略了供电的情况,关闭SMT可以提高运行频率,因为你可以利用所有的功率 大多数人都不懂,他们知道我们目前的产品取消了SMT,但没有看到机会成本,这是事情的另一面。 -- 你还可以获得可预测的性能,SMT像一盒巧克力,如果两个线程的IPC都很低,消费计算模块的不同部分,那它们可以很好的并行,但如果两个线程IPC都很高,并且可以利用整个核心,那么SMT没有帮助。如果两个线程受到dram约束,或者在竞争cache资源,那也没有帮助 用游戏举例,游戏需要可预测性能,这就是为什么大多数游戏应用程序都会关闭SMT,因为他们想要可预测的性能
没有人比Pat更适合领导intel,intel因此股价大跌,14a 现在的情况是,intel董事会希望以产品为中心,流入Fab的资源减少。 为了在18a推出后2年实现14a,需要重大资金投入,所以Fab资源减少会影响到5N4Y后intel重回tick-tock的战略计划。intel业务横跨半导体设计和制造。Pat之于intel新生euv代工厂,相当于张忠谋之于台积电。更不要说Pat在intel内部达到了CTO的位置和担任VMware CEO,所以管理产品部门Pat也是非常合适的人选。 新CEO可能会聘用半导体制造领域人士,在尽量不影响14a tick-tock的情况下缩减资金,用以提供更多资金给产品设计部门开发AI。14a有一定可能延期。我认为最坏的情况是intel将Fab上市卖出49%的股份。 以前,Pat对于公司曾放弃自己亲手打造的Larrabee GPU表示脸都气青了,这是intel早于nvidia对光线追踪进行研究的显卡,光线追踪和AI有相当大的关系,后来intel在放弃自研Larrabee 3年后不得不收购了几家AI公司,产品gaudi和ponte vecchio等都失败了。如出卖Pat成果的事件再次重演,是intel对不起Pat相对的,intel可能在未来会有不错的DCAI产品。消费级独显大概不用担心被砍了,cpu预算也会更充足,会更好代价是更贵。像这次的arrowlake和meteorlake共用一个soc的节省预算设计不会再有了。 CHIP给钱,如果给intel是最好的,因为intel研发制造都在US,给tsmc研发不在US,制成落后岛内2年,但至少能把厂建出来,给三星,呃
有一说一,14600k或成为9800x3d平替,不吹不黑 首先我们看性能,数据来源远古时代装机吗喽,2k分辨率下 测得总性能98x3d>78x3d>149k>97x>285k 测得10款单机游戏性能149k>98x3d>78x3d>97x>285k 测得7款网络游戏性能98x3d>78x3d>149k>97x>285k 网络游戏中98x3d甚至秒285k 26%,无敌的存在。在单机中虽平均帧稍逊149k,但low帧仍然领先5%左右非常强大。可以说坐稳了地表第一游戏u的位置。 149k若经过oc有很大提升,可超78x3d,能不能打98x3d暂不清楚,不过这不是本文的重点。285k据说有非常大的调整空间,个别游戏low帧提升30%都是可能的,不过这也不是本文的重点,285再怎么超,还能打过149k默认不成。再看这份数据,可以反映x3d在不同显卡下对帧数的提升幅度,令人惊讶的是当使用4090d级别高端显卡时98x3d对帧数的提升比例有一个骤降,从提升22%左右降到提升9%左右。因为原来都认为x3d在更高性能显卡上有更好的发挥,这份数据这是否意味着未来给98x3d换上更高端的5090时对比9700x提升也不大呢。随便某宝选了146kf b760m 2t 32g 850w电源 利民双塔散热,一共3547,现在图吧牛爷爷随便一个配置单什么多多某音,价格都比某宝低。这好像比98x3d一个u还要便宜?再搭一个4k160高刷显示器5000,现在dlss不是随便开?还在测1080p的可以把家里的祖传1080p换了98x3d多核与146k差不多,单核性能强10%左右。 98x3d真是没得黑的一代完美游戏u,前两代频率低性能拉胯,这代频率上去了,r24性能没短板,游戏帧数猛增,实在太强了。再看146k 2k游戏性能,77x97x打遍无敌手,但与98x3d相差8%,只能搭配双槽便宜b板超便宜d4内存,降本增效。总结时间,有钱直接98x3d+4090是目前游戏最强 但普通玩家哪来那么多钱,要过日子不是 如果是电竞网游大神,78x3d/98x3d搭配240hz以上显示器非常值得考虑,搭配4070s-4080s级别显卡都有很大提升,但到4090d级别提升会降低到9%。 是160hz以下显示器则看玩游戏而定,如果游戏随便超过200帧,超过刷新率的帧会直接被丢弃。即使考虑到低帧和平均帧不稳定的问题,因此需要游戏帧数比显示器刷新率高点更好,但延迟的理论下限对于160hz是6.25ms,不会更低。240hz显示器直接比160hz降低延迟2ms,480hz降低4ms,怎么折腾x3d cpu都比不上高刷显示器带来的提升的。 而主玩单机,则不必买x3d,u本体成本差距2500以上平台成本算上内存主板差距更大,价格足够把显卡升级两档,放单机里真是随便秒。多核不弱于98x3d单核弱10%左右。高画质单机玩4k dlaa/dlss质量,80FPS游戏实际帧数差距与98x3d可能个位数,而且单机玩家反应慢,感觉不出来
Nova lake采用这样的设计怎么样 左边是cpu,右边是封装 cpu tile部分是6P+16E设计,用于台式机和笔记本HX,砍一刀变4P+8E tile,可用于U3和低功耗笔记本 p核ipc超zen7,频率进一步下降,e核ipc超zen6,频率进一步提升 之所以6+16,是因为感觉最后一代P核coyote cove会变很大很热,没必要8P u9像9950x一样多cpu tile结构,直接堆12P+32E,主打生产力,游戏秒98x3d U7 6P+16E是U9一半,另一半是空硅片,游戏秒108x3d,18A-P自家工艺成本正好是台积电一半 为什么突然这么多核,因为听说zen6是32核(16zen6+16zen6c?),ipc提升10%,以及台积电高级胶水,不堆核没法打 intel 3-T工艺的硅基板,通过地表最强foveros direct硅互联胶水,一方面集成媒体引擎内存控制器等各种功能,另一方面把内存延迟降低到10代到14代之间的水平,还能堆金刚缓存x3d,这要是出了大概连u5都有x3d了(虽然intel版本x3d听说延迟或取消),其实就和98x3d缓存放在cpu下面有点像 18A或3工艺 4Xe3 亮机核显,也可用于笔记本H系列,以及2P+4E的低端wildcat lake 说起来Arrow lake kf版本的gpu tile应该是空硅片没跑了吧 设计一个硅用在多个地方是行业普遍做法了,arm是其中的典型,arm设计一个产品授权给别的企业可以应用到手机车机电视服务器等多个领域 通过这样设计,只要两种cpu tile就可以覆盖intel几乎全部消费级产品。虽然不像amd在服务器上也用一样的,但算上intel规模优势,成本大概和amd不相上下吧。过去甚至要在不发布的20a上设计,在intel 3,还有和20a一样不发布的intel 4 BSPD节点上设计,同时又要为台积电工艺设计,intel设计团队为了foundry承受了太多。 唯一的问题是,这样省吃俭用,设计一个硅用在多个地方还是intel作风吗?intel的祖宗之法难道不是设计一堆独立的硅,然后只用在一个产品上 附图是我测试Real ESRGAN的结果展示,与主题无关
三星考虑将代工部门分拆,因3纳米产量不佳令客户望而却步 在先进半导体制造领域,情况并非总是“另一边的草更绿”,尤其是在我们已经接近“无路可走”的状态。根据《Business Korea》报道,三星证券在7月发布的《地缘政治范式转变与产业》报告中,描绘了三星当前形势的悲观前景。该报告甚至评估了三星代工部门可能被分拆的可能性。作为韩国科技巨头,三星近年来在其最先进的3纳米环绕栅极场效应晶体管(GAA FET)节点上遭遇了多种业务挫折。据报道,这一节点的良品率仅为10%-20%,导致潜在客户对与三星建立合作关系持谨慎态度。三星证券预计,三星代工业务及其LSI部门今年将面临5000亿韩元(约合3.85亿美元)的亏损。 产量不佳和难以吸引客户,使得三星面临艰难的选择,其中包括可能出售其庞大的代工部门,该部门为外部客户制造逻辑芯片。值得注意的是,在先进半导体制造领域,三星是仅存的三家公司之一,另外两家是台积电和英特尔。在转向7纳米以下节点时,许多公司未能取得预期成果。Global Foundries退出了这场竞赛,专注于成熟节点,而英特尔则遭遇了延迟。台积电是唯一一家能够持续设定并实现目标的公司,确立了其行业领导者地位。由于3纳米GAA FET节点的低产量,三星在第二季度全球代工市场的份额为11.5%,而台积电则占据了62.3%的主导地位。
1 下一页