米线山️之父 路西法not
关注数: 141 粉丝数: 226 发帖数: 13,577 关注贴吧数: 546
DLSS揭秘:30/40系开不了dlss 3/4?别再吵了! 一贴详细说明dlss 就是那个楼的楼主和那个和楼主对线严格来说都没说错 说楼主没说错 是因为老黄一开始就是直接这么宣传的,宣传dlss1是Deep Learning Super Sampling dlss2是DL BASED MULTI-FRAME RECONSTRUCTION,DLSS 2.0 - 基于深度学习的多帧图像重建 dlss3是fg,dlss4是mfg 为什么大家都说30系显卡开不了dlss3? 为什么大家都说40系显卡开不了dlss4? 大家说的肯定不是dlss 3 sr和dlss4 tsr吧 大家说的是dlss3 fg和dlss4 mfg 其实习惯称呼确实是这样的,因为每一代dlss都有标志性功能和其他更新,例如dlss12就是超分的迭代,3时最大亮点是帧生成,4就是多倍帧生成。主要是老黄命名混乱,例如dlss3.5主要功能是光线重构,30系也可以开启,但里面没有帧生成,跟dlss3带帧生成的习惯又连不上了 说和楼主对线的没说错是因为 DLSS包含:超分-SR,Super Resolution、帧生成-FG,Frame Generation、光线重构-RR,Ray Reconstruction三大技术,50系又新引入了多倍帧生成-MFG,Multi Frame Generation,这几个技术完全不是同一回事。 这次DLSS4虽然名义上是主打MFG,但实际上FG、SR、RR的成像质量因改进学习模型而均有提升,最好不要把版本号和技术类型混为一谈以免引起歧义(比如简单粗暴的认为“DLSS3=DLSS帧生成”或者“DLSS4=DLSS多倍帧生成”),如果DLSS超分还停留在2代,那效果会比你现在看到的差非常多。 在你玩的游戏目录内搜索到nvngx_dlss.dll,右键属性→详细信息,就能看到SR超采样的版本,同理nvngx_dlssd.dll为RR光线重构文件,nvngx_dlssg.dll为FG帧生成文件,都能查看到游戏采用的版本,并且只要DLSS为2及以后,都可以通过手动更换模型的方式提升DLSS的画面 你要硬说20系都能开dlss4也对,但是只能开dlss4 tsr 一言以蔽之,traditionally: input sequential images, with human manipulated sampling (clamp, etc), local PC will generate high res RGB. DLSS 2.0: input sequential images, DL will make decisions on the 'best' sampling based on the huge amount of training completed in NVIDIA cloud center :) - basically a universal model -, and then local PC will generate high res RGB. Deep Learning Super Sampling 4 Transformer super resolution是基于Artificial Intelligence,Machine Learning,Deep Learning的一种Transformer Model の super resolution
安卓手机HDR行业最大骗局?99%安卓手机HDR都是亮标玩具! 1️⃣先说暴论:99%的安卓手机HDR都是亮标玩具! 原因拆解: 🔌 硬件层面的先天残疾 EDID欺诈:手机通过EDID信息谎称支持HDR,但实际: 屏幕亮度不够,好多安卓手机都是LCD或者比较差的super AMOLED(全局亮度<700nit,HDR门槛是1000nit) 色域虚标(号称P3广色域,实际覆盖率不足90%) 芯片阉割: 高通/联发科SoC的HDR处理单元缩水(对比苹果A系列芯片的独立显示引擎) HDMI输出限制(Type-C转HDMI时强制降级到SDR,参见三星S23 Ultra翻车案例) 🎭 软件层面的障眼法 元数据过家家: 播放HDR视频时,系统粗暴拉伸亮度曲线(类似美图秀秀一键HDR滤镜) 实际信号仍是8bit SDR(通过抖动模拟10bit效果) 杜比视界亮标骗局: 小米12S Ultra号称支持杜比视界录制,但导出文件实为HLG格式(动态范围被砍30%) 一加11播放Netflix杜比视界时,实际输出是SDR转码(通过拆解发现安卓手机edid无法支持输出HDR电平信号,只能给面板输出SDR) 实验室级打脸证据: 用CalMAN测试一加11播放HDR视频: PQ曲线偏差ΔE>5(专业标准要求ΔE<3) 峰值亮度仅550nit(标称1300nit是局部瞬态值) 结论:安卓阵营除了索尼Xperia 1系列等极少数机型,其他都是【亮标战士! 】 --- 2️⃣ 技术暴论:为什么苹果能真·HDR? 硬件暴力堆料: iPhone 14 Pro的XDR显示屏实打实全局1000nit(HDR峰值1600nit) M系列芯片内置ProRes编码器,HDR元数据直通输出 生态霸权: 从拍摄到剪辑再到AirPlay投屏,全程锁定杜比视界生态链 安卓阵营的HDR就像散装游击队,苹果则是正规军 --- 总结 显示器动态元数据:能读!但需要杜比/HDR10+认证设备 安卓手机HDR:除了索尼等个别机型,基本都是【亮标安慰剂】 终极建议: 追求真HDR?要么买iPhone+苹果生态,要么上专业监视器 看到安卓机吹HDR?直接回怼:【亮个标就想收智商税?】
4K分辨率5060ti完胜TITAN V和镭7 (关DLSS) 5060ti在传统光栅性能上比TITAN V强10%~20%,比镭7强50%。其高主频和架构优势使其在4K环境下同样优于TITAN V和镭7,如果再算上DLSS技术,性能更是显著超越。 有人可能会质疑5060ti的128bit带宽在4K环境下如何能跑赢TITAN V的3072bit和镭7的4096bit。如果将带宽比作水管,128bit GDDR7相当于128的水管,而3072bit和4096bit则相当于3072~4096的水管。然而,4060ti的水量(即数据处理能力)是2800,而TITAN V和镭7的水量只有170和200。此外,缓存的影响也不容忽视。 以RDNA2架构为例,6900HS上的680m和RX6400独显都是6WGP 12CU。680m使用LPDDR5 6400 128bit内存(内存带宽102.4GB/s),在2.2GHz时Time Spy跑分为2600分,2.4GHz时为2700分。而64bit 14Gbps GDDR6显存TDP 43w的AMD独显RX6400最丐的版本(内存带宽与680m相当),在2.3GHz时Time Spy图形得分都能够达到3600分,比2.4GHz的680m高出1/3。这是因为RX6400拥有16MB的IF L3缓存,而680m没有IFC,因此在相同频率下显存瓶颈明显。 在RDNA3架构中,6WGP 12CU 1.1GHz的手机内存带宽约68GB/s,SNL跑分为1800分。8WGP 16CU的HX370内存带宽约120~130GB/s,2.9GHz时Time Spy得分为3700分,SNL得分为3500分;2.2GHz时Time Spy得分为3500分,SNL得分为3300分。频率提升32%,性能仅提升6%。而8WGP 16CU 2.8GHz的8040S拥有32MB IF L3缓存,在内存带宽不变的情况下,2.8GHz时Time Spy得分可达4800分,比HX370提升30%。20WGP 40CU 2.4GHz的8060S内存带宽约273GB/s,拥有32MB无尽缓存,Time Spy得分为10300分。 8e GPU因为有12MB L2缓存,节省了大于40%的带宽,因此带宽对比上代8G3提升12%(9600对8533),SNL跑分2600分,提升50%。4060ti 128bit GDDR6 288GB/s因为有32MB L2缓存,节省了50%的带宽,因此在4K游戏性能上与上一代3060ti G6X 256bit 608GB/s不分伯仲。4070S 192bit G6X对比3090 384bit G6X,一个500GB/s,一个1TB/s,全靠48MB L2缓存。6900XT 504GB/s对比3080 12G 900GB/s,多亏了128MB L3 IF缓存。 综上所述,带宽虽然重要,但缓存和架构优化同样对性能有着显著影响。5060ti通过高主频、架构优势和DLSS技术,在4K环境下表现出色,即使带宽较低,也能通过缓存优化实现卓越性能。
中国发明无硅芯片!速度和功耗突出 或重塑全球芯片格局! 近日,一则振奋人心的消息在全球科技界引发了轩然大波:中国科研团队成功发明了无硅芯片,其性能表现卓越,堪称 “速度最快、功耗最低”,有望重塑全球芯片格局。这一重大突破,不仅为中国在芯片领域的发展注入了强大动力,也为全球半导体产业的变革带来了新的可能。 2 月 14 日,《自然 - 材料》杂志发表了一项来自北京大学团队的研究成果,该团队开发出了全球首款无硅芯片。这款芯片的诞生,标志着芯片技术领域迎来了一次革命性的飞跃。与英特尔和台积电最新的 3 纳米芯片相比,这款无硅芯片的速度提升了 40%,能耗却降低了 10%,如此出色的性能表现,使其被誉为 “迄今为止速度最快、能耗最低的晶体管”。 长期以来,芯片行业一直受困于一个两难困境:在追求高性能的同时,难以兼顾低功耗。然而,北京大学彭海琳教授团队的这项研究成果,成功打破了这一魔咒。彭海琳教授在接受采访时表示:“如果芯片创新基于现有材料被视为‘走捷径’,那么我们开发的二维材料晶体管就相当于‘换道超车’。 ” 该团队彻底摒弃了传统芯片的基础材料 —— 硅,转而采用铋(Bismuth)基材料构建晶体管。自 20 世纪 60 年代以来,硅一直是芯片的基础材料,英特尔创始人戈登・摩尔提出的 “摩尔定律”,即芯片上的晶体管数量大约每两年翻一番,推动着整个芯片产业不断向前发展。但随着科技的进步,“摩尔定律” 逐渐失效。 当晶体管尺寸不断缩小,硅基芯片面临着三大难题:短沟效应,使得晶体管栅极难以有效控制电流;量子隧穿现象,导致电子 “穿墙而过”,增加了漏电风险;功耗墙问题,微缩带来的功耗飙升,让芯片发热严重。尤其是当工艺进入 3 纳米节点以下(约为一根头发丝直径的两万分之一)时,这些问题变得愈发难以克服。 那么,彭海琳团队是如何突破这些限制的呢?他们的秘密武器是一种名为 Bi₂O₂Se(硒氧化铋)的二维材料,这种材料仅有几个原子厚。此外,团队还采用了一种全新的晶体管架构 —— 全环栅场效应晶体管(GAAFET)。 传统晶体管如同水流通过平面管道,而近年流行的鳍式场效应晶体管(FinFET)类似水流通过凸起的鳍片,与之不同的是,GAAFET 就像水流完全被管道包围,对电流的控制更加精准。这种架构的改变,如同从高楼大厦式的设计转变为连接桥梁式的设计,使得电子流动更加顺畅。具体来看,这种新型晶体管具有诸多神奇之处:其沟道超薄,仅 1.2 纳米厚,相当于几个原子叠加的厚度;Bi₂O₂Se 与栅氧化物 Bi₂SeO₅之间形成了近乎完美的 “天然” 平滑界面,几乎不存在缺陷;工作电压极低,仅需 0.5 伏特,远低于硅基芯片的要求;电子迁移率超高,高达 280 cm²/Vs,电子能够在其中 “畅行无阻”。目前,研究团队已经利用这种晶体管构建了非门、与非门和或非门等基本逻辑单元,充分证明了其在实际计算中的应用潜力。 这项研究成果不仅是技术上的重大进步,更是一种战略上的突围。众所周知,先进芯片制造技术受到严格的出口管制,在这种情况下,彭教授坦言:“虽然我们走上这条路是出于当前制裁的必要性,但这也促使研究人员从全新的角度寻找解决方案。这种方法并非在现有技术道路上追赶,而是开辟全新赛道,实现‘换道超车’。” 不过,从实验室突破到大规模生产,仍面临诸多挑战。例如,如何实现晶圆级大规模制造,怎样使新技术与现有硅基工艺兼容,以及如何有效控制生产成本和提高良品率等。尽管如此,北京大学团队已经展示了晶圆级单片三维集成(M3D)的可能性,为未来大规模生产带来了希望。近年来,该团队在《自然》系列期刊上发表了多篇重要论文,如 2023 年报道的世界首例外延高 κ 栅介质集成型二维鳍式晶体管,而此次的二维环栅晶体管则是他们研究的进一步突破。 全球半导体巨头如英特尔、台积电和欧洲微电子中心(IMEC)都在积极研发二维环栅晶体管,而北京大学团队率先取得突破性进展。彭教授表示:“这表明二维环栅器件在性能和能耗上优于先进硅基技术,它满足国际器件和系统路线图(IRDS)对埃米节点的算力与功耗要求。” 可以说,这一成果不仅仅是中国一个团队的成功,更有可能成为改变整个芯片产业未来走向的关键技术飞跃。就如同蒸汽机引发了第一次工业革命、内燃机推动了第二次工业革命、硅基芯片引领了信息革命一样,这种新型铋基二维芯片有望引领下一轮科技变革,为人工智能、量子计算等前沿领域的快速发展提供强大助力。未来,随着相关技术的不断完善与应用拓展,其对全球芯片格局的重塑作用值得期待。
【NV GB300】 nv好像瓶颈了 没得架构提升了吗 🚀 NVIDIA GTC 2025 (Blackwell)GB300 AI GPU 与下一代 Rubin 平台即将发布:性能、功耗、技术细节全解析 在即将召开的 NVIDIA GTC 2025(GPU 技术大会)上,NVIDIA 将发布备受期待的 GB300 “Blackwell Ultra” AI GPU,同时还将展示其下一代 Rubin AI 架构 的细节。以下是对这场发布会重点内容的全面解读: 🎯 Blackwell Ultra GB300:AI 计算性能的怪兽1. 288GB HBM3E 显存• GB300 将搭载高达 288GB 的 HBM3E 显存,采用 12-high 堆叠技术,这是目前业内最高规格的显存配置之一。• 相比前代 B200,显存容量和带宽均提升了约 50%。2. 1.4kW 功耗(TDP)• GB300 的 TDP(热设计功耗)达到 1.4kW,比上一代 B200 高出约 40%。• 这使其成为目前功耗最高的 AI GPU 之一,可能需要液冷系统来稳定运行。3. 性能提升 50%• 在 FP4(浮点计算)性能上,GB300 相比 GB200 提升约 50%,预计将成为 AI 推理和训练的性能新标杆。4. 发货时间• GB300 预计将在 2025年第三季度(Q3 2025) 开始量产和发货。 🔥 Rubin AI GPU:2026年的新一代 AI 引擎 NVIDIA 的下一代 Rubin 架构将在 2026 年登场,技术细节如下:1. 双逻辑芯片架构• Rubin 将采用 双芯片设计,在封装上采用 TSMC N3 工艺(3nm)。• 这种设计将显著提高计算密度和能效。2. HBM4 显存:容量突破 384GB• 配备 8 组堆叠式 HBM4 显存,总容量达到 384GB,比 GB300 的 HBM3E 提升约 33%。3. 功耗提升至 1.8kW• Rubin 的 TDP 预计高达 1.8kW,功耗再创新高,可能需要更先进的散热系统。4. Vera ARM CPU 升级• Rubin 平台将集成升级后的 Vera ARM CPU,基于 TSMC 的 N3 工艺,采用 2.5D 封装结构,提升与 GPU 的协同工作能力。5. 1.6T 网络接口(ConnectX-9)• 支持每秒 1.6T 的网络带宽,通过双 ConnectX-9 NIC 实现高速互联,满足大规模 AI 训练的带宽需求。6. 预计 2026 年量产• Rubin 平台预计在 2025年底至2026年初 小规模生产,并在 2026年第二季度 进行大规模发货。 💡 行业影响与展望• GB300 和 Rubin 平台的推出,标志着 NVIDIA 在 AI 领域的统治地位进一步巩固。• 功耗的飙升(1.4kW → 1.8kW)显示出 AI 计算对能源和散热提出了更高的挑战,未来或将推动液冷和其他新型散热技术的普及。• Rubin 平台的双逻辑芯片架构和更高的内存容量,预计将在大型语言模型(LLM)、自动驾驶、科学计算等领域带来革命性的性能提升。 🚨 个人观点1. 性能 vs. 功耗之争• 1.4kW → 1.8kW 的功耗水平,意味着 AI GPU 正在走向“高性能=高功耗”的新极限。• 这可能会限制部分企业和科研机构的部署能力,未来可能需要通过更高效的制程或新型散热技术来平衡。2. 双芯片架构的变革• 双芯片架构(Chiplet)将成为未来 AI GPU 的主流趋势。• 这种设计不仅能提升计算性能,还可能带来更高的可扩展性。3. NVIDIA 依然是 AI 领域的统治者• GB300 和 Rubin 平台在性能和能效上的巨大跃升,表明 NVIDIA 在 AI 计算领域仍遥遥领先 m。• AMD、Intel 和中国本土厂商在 AI 芯片领域仍面临巨大的技术和市场压力。 ✅ 总结• GB300 → 功耗 1.4kW,性能提升 50%,288GB HBM3E• Rubin → 双芯片架构,功耗 1.8kW,384GB HBM4,2026年量产• NVIDIA 通过 Blackwell 和 Rubin 架构,稳固 AI 计算领域的领先地位• AI 计算已进入“极致性能 + 极致功耗”时代,未来的散热与能耗管理将成为重要课题 👉 未来的 AI 计算不再是“性能 vs. 功耗”的妥协,而是“如何在极限功耗下保持极限性能”。NVIDIA 再次将 AI 计算推向新的高度,未来两年将是 AI 硬件领域的激烈竞争期。#想买原价显卡怎么比登天还难# #50系显卡还是老黄熟悉的刀法#
M3U低功耗运行671b 🚀 苹果 M3 Ultra:用 200W 功耗轻松运行 6710 亿参数的 DeepSeek R1,AI 性能再突破! 苹果在本周正式推出了全新的 M3 Ultra 处理器,搭载于最新的 Mac Studio 之中,这款芯片展现出了惊人的 AI 处理能力。在 YouTuber Dave2D 的测试中,M3 Ultra 仅用 200W 功耗,成功运行 DeepSeek R1 的最大 6710 亿参数模型,一举击败 M2 Ultra、M4 Max 等前代产品,标志着苹果在 AI 处理能力上达到了新的高度。 🔥 M3 Ultra 的技术突破:32 核 CPU + 80 核 GPU + 512GB 统一内存 M3 Ultra 采用苹果自研的 UltraFusion 技术,将两块 M3 Max 芯片合并成一颗完整的 M3 Ultra 芯片,核心规格达到:• 32 核 CPU• 80 核 GPU• 支持最高 512GB 统一内存(相比 M2 Ultra 和 M4 Max 的 128GB 大幅提升)• 功耗控制在 200W 以下,超低功耗下保持极限性能 🧠 DeepSeek R1 性能测试:M3 Ultra 碾压对手 在 Dave2D 的测试中,M3 Ultra 在 DeepSeek R1 不同参数规模下展现了统治级的性能表现:模型参数如图 ✅ M3 Ultra 在所有模型下均实现了领先性能,尤其是在 DeepSeek R1 的 6710 亿参数下,M2 Ultra 和 M4 Max 甚至无法运行。 💡 苹果 M3 Ultra 的架构优势:极致能效比 + 超强内存带宽 M3 Ultra 的成功在于其极致的能效比和内存带宽:• 512GB 的统一内存为大型 AI 模型提供了充足的运算空间。• 仅 200W 的功耗,相比传统的多 GPU 方案(通常需要 2000W 以上),M3 Ultra 的能耗表现堪称“奇迹”。• 在 DeepSeek R1 的 6710 亿参数模型中,M3 Ultra 甚至比 70B 规模的模型运行得更高效。 🔎 在 AI 领域,功耗与性能之间的平衡是关键,M3 Ultra 展现了苹果在芯片设计上的深厚功底。 🏆 苹果 M3 Ultra = 未来 AI 芯片的新标杆? 在 AI 领域,M3 Ultra 的优势体现在:✔️ 极致的能效比✔️ 超强的内存带宽✔️ 全新的统一架构✔️ 碾压同类芯片的 AI 处理能力 在 200W 功耗下,M3 Ultra 完成了其他多 GPU 系统需要 2000W 才能完成的任务。M3 Ultra 的成功不仅巩固了苹果在 AI 领域的领先地位,更在高性能低功耗的 AI 芯片市场中开创了新的标准。 🎯 编者点评:M3 Ultra 让 AI 训练和推理走向“平民化” 苹果通过 M3 Ultra 证明了一件事——AI 高性能并不需要高功耗。• 以往,运行大型 AI 模型需要昂贵的 A100、H100 级别的 NVIDIA 显卡,并且动辄数千瓦的功耗。• M3 Ultra 仅用 200W 功耗,便成功运行 6710 亿参数的 DeepSeek R1,打破了行业常规。• 如果苹果将这项技术扩展到未来的 iPhone 和 iPad 芯片中,AI 设备市场将迎来彻底的革命。 🚀 苹果在 AI 芯片上的突破,或将成为 AI 发展史上的重要节点。M3 Ultra 的“极致能效比”或许正是 AI 未来的新方向。 👉 苹果 M3 Ultra = AI 领域的 Game Changer!
DDR5 时代的 PC 性能将有多少提升? 1、关于 IPC,贴个知乎大佬测试 CPU 2017 的实际 IPC 吧: ArrowLake P-Core的IPC是2.57,E-Core 是2.41。 RaptorLake P-Core是2.35,E-Core是 1.95。 Zen 5 IPC 是2.61,Zen4 是2.33,Zen3是 2.16。 2、日常应用没啥特别感觉,大部分人无法 在日常应用里感知10% 的性能差别,不过 DDR5 对新平台来说是必须的,所以如果打 算上Zen5、ArrowLake 你不需要考虑 DDR4。 DDR5 主要的规格提升有几个: 1.容量更大。从DDR4的16bit/颗粒提升到 64bit/颗粒;允许堆叠层数从4层提高到8 层。最终结果就是,现在最大单条256G 的DDR4服务器内存条,将来会有单根2T 的DDR5服务器内存条。消费级没有堆 叠,没有寄存器的UDIMM,会从现在最 大单根32G提高到128G。不过,这对性能 没有什么帮助,但对于榨干大家的钱包比 较有帮助。 2. 带宽更高。从DDR4-3200提升到 DDR5-4800,增加50%。将来会有 DDR5-6400,增加100%。也就是单根 DDR5 UDIMM就能提供现在双通道DDR4 3200的带宽。但很显然,现在绝大部分应用并不能从双通道中获益,即便能获益,性能提升通常在5-10%左右,只有极个别真的很渴求带宽的应用,能有 20-30%左右的性能提升。 3. 单根UDIMM从64bit改为2x32bit。这个 和上面所说的单根带宽翻倍结合起来,就 完全是一根实现DDR4双通道了。理论上 延迟会有一定程度的降低,具体情况要看DDR5 主要的规格提升有几个: 1.容量更大。从DDR4的16bit/颗粒提升到 64bit/颗粒;允许堆叠层数从4层提高到8 层。最终结果就是,现在最大单条256G 的DDR4服务器内存条,将来会有单根2T 的DDR5服务器内存条。消费级没有堆 叠,没有寄存器的UDIMM,会从现在最 大单根32G提高到128G。不过,这对性能 没有什么帮助,但对于榨干大家的钱包比 较有帮助。 2. 带宽更高。从DDR4-3200提升到 DDR5-4800,增加50%。将来会有 DDR5-6400,增加100%。也就是单根 DDR5 UDIMM就能提供现在双通道DDR4 3200的带宽。但很显然,现在绝大部分 应用并不能从双通道中获益,即便能获 益,性能提升通常在5-10%左右,只有极 个别真的很渴求带宽的应用,能有 20-30%左右的性能提升。 3. 单根UDIMM从64bit改为2x32bit。这个 和上面所说的单根带宽翻倍结合起来,就 完全是一根实现DDR4双通道了。理论上 延迟会有一定程度的降低,具体情况要看实际产品。 实际产品。 。。 可以预见的是CPU的进一步提升对于轻度用户来说并不会有非常明显的感知,而且会越来越不明显,比如文字工作,编程工作,画图工作等等。 而一些实时性较高的场合会更明确的体会到GPU DSP性能提升带来的结果,比如8K视频解码,比 如4K的全屏3D游戏渲染等等涉及到多帧动画视频的工作。 DDR5 会进一步提升集成显卡+的性能,使 得未来的集成显卡能够带动早年间的大型3D 游戏。但对CPU性能的提升不会有非常明显 的感知,因为对于图片工作以及文字工作者 来说,CPU的性能确实需求不大。对于视频 工作以及游戏用户来说,依然也是对GPU的 性能需求大于对CPU的性能需求。 至于apple M系列,虽然CPU表现还不错,但一 方面缺乏强大的GPU,二方面缺乏需求强大 GPU的游戏与生产力应用,所以个人认为 它实际上很难对PC造成很大竞争。 且不说M1是不是非常强,就算M1的CPU真 的是顶级的,现在CPU的性能也根本不是影 响用户体验的主要瓶颈,感知最明显的其实 就是GPU性能。而M1的GPU性能并没有特别 值得说道的地方。 所以对于等等党来说,你唯一需要等的就是 显卡价格回归合理价位,至于CPU体系其实,目前主流的真的都已经足够用了。 除非,将来发明某种新的技术,让CPU 也大量参与到显卡渲染等实时性要求较高的 运算当中去。才会对CPU性能需求提升。 一个系统,有硬盘I0,寻道时间,GPU渲 染,内存大小,等等很多瓶颈,相对来说, CPU可能是最难造成瓶颈的那一个。所以 不用过分在意CPU性能。其他很多环节对最终体验的影响可能都比CPU更大。当然,有些游戏对CPU 性能或者说多线程能力会比较敏感,例如蜘蛛侠系列。
0.85毫米超薄做到1TB!手机首次支持UFS 4.1 0.85毫米超薄做到1TB!长江存储晶栈4.0杀入手机,首次支持UFS 4.1 除了SSD固态硬盘,UFS嵌入式存储也将是长江存储的重点方向,深圳闪存市场峰会上就公开了三款强大的新品。 UC420: 长江存储首款支持UFS 4.1标准的嵌入式闪存芯片,首次基于晶栈4.0架构。 容量可选256GB、512GB、1TB,也是长江存第一颗1TB UFS芯片。 但是,它的厚度只有0.85毫米,超薄的封装使之非常适合折叠屏手机。 即便如此,仍然可以做到饱和带宽与满血性能,堪称业界标杆,非常适合旗舰机型。 此外,它还可以满足各家AI旗舰手机的特色功能定制。 2024年底,长江存储发布了首款基于新一代晶栈4.0闪存架构的PCIe 5.0 SSD产品致态TiPro9000,无论性能还是功耗发热都趋于完美,但官方对新架构并未做过多介绍。 在深圳举办的2025年闪存市场峰会上,长江存储首次公开揭秘了晶栈4.0闪存架构的诸多细节。 2018年以来,场景存储的晶栈架构已经演化了四个大版本,存储密度越来越高,可靠性越来越稳,IO速度越来越快,目前已达3600MT/s,同时不断引入新的先进工艺和技术,这一代就加入了SCT。 晶栈4.0延续了背面源极连接(BSSC),采用混合晶圆键合结构,20孔垂直通道设计,持续改善生产效率,并提高产量。 其中,晶栈4.0 TLC产品代号X4-9060,致态TiPro9000用的就是它。 单Die容量512Gb,密度比上代X3-9060提升了超过48%,是已量产同类产品中密度最高的,IO速度也提升了50%。 同时,新闪存高效易用,在设计上兼容前两代X2/X3-9060,可以快速迁移。 晶栈4.0 QLC产品代号X4-6080,比上代X3-6070密度提升了42%,单Die容量从1Tb翻番到2Tb(512GB),单盘容量可以轻松做到4TB甚至更大。 同时,IO速度提升了50%,吞吐量提升了147%,耐久度提升了33%。 晶栈4.0的堆叠层数未公开。 三星已做到286层,设计完成400+层,明年量产。 美光量产232层,下一步276层。 铠侠现为218层,最近已宣布332层。 SK海力士已宣布321层,并率先量产300+层。 铠侠/西部数据为218层,不过西部数据闪存业务已拆分给闪迪。
高通“核弹”震撼发布!18核芯片突破算力极限 引言 “得芯片者得天下,失架构者如断腕!”2025年2月31日深夜,这句手机圈的黑话在深圳华强北轰然炸响。当苹果A18 Pro还在为3纳米工艺良率焦头烂额,华为麒麟9100刚突破5G射频封锁之际,高通突然在X平台扔下了一颗深水炸弹——骁龙X2芯片将集成18个Oryon V3核心,这无异于给手机装上了服务器级的“算力引擎”! 要知道,当前旗舰芯片普遍停留在8-10核,联发科天玑9400堆到12核就被戏称为“火炉炼丹”。而高通此次直接突破了物理极限,背后得益于台积电第二代N3E工艺的加持,晶体管密度飙升至2.8亿/mm²。然而,看客们都在窃窃私语:去年被华为“背刺”的高通,莫非偷学了东方的“炼金术”?更令人震惊的是,这枚“性能怪兽”的AI算力高达90TOPS,比苹果A18 Pro多出三倍,让雷军都连夜改口:“小米15 Pro或成最大输家!” 第一幕:圣地亚哥实验室的“核爆”时刻 2024年圣诞夜,高通首席架构师詹姆斯盯着示波器上跳动的波形,突然把咖啡泼在了草稿纸上:“为什么不能把大核当乐高积木来玩呢?”这个疯狂的想法源自他陪女儿搭积木时的顿悟——既然单核性能遇到了瓶颈,那就用数量来碾压! 三个月后,他们在实验室里玩出了新花样:把三个Oryon V3核心封装成“超核模块”,六个模块组成蜂窝结构。测试数据让所有人震惊——多线程性能暴涨240%,但功耗曲线却像过山车一样刺激。直到台积电送来N3E工艺样片,工程师老张用南京话吼了一句:“乖乖隆地咚,这特么是给手机装上了飞机引擎啊!” 第二幕:库克的“凌晨惊魂” 苹果供应链总监艾米丽看到泄露的参数时,正在库比蒂诺啃着沙拉。她冲进库克的办公室:“X2芯片的Geekbench5多核跑分破了3万,咱们A18 Pro才1万不到!”更致命的是AI单元的设计——高通用“动态核池”技术,能把18个核心任意组合成AI加速阵列,这相当于让ChatGPT在手机端进化出了“九头蛇”形态。 最巧妙的反击藏在专利文件里。高通把芯片架构图伪装成了“乐高星球大战说明书”,成功绕开了ARM的架构授权限制。知情人士透露,他们在迪士尼乐园签下了技术协议,合同封面上印着尤达大师的名言:“要么做,要么不做,没有试试看!” 第三幕:松山湖的“备胎起义” 华为海思掌门人何庭波看到新闻时,正在东莞吃着烧鹅濑粉。她抄起电话打给了“松山湖纵队”:“启动‘九章计划’,把达芬奇架构堆到24核!”这支秘密团队,竟然用5G基站芯片的封装技术,在手机端玩出了“乾坤大挪移”。 测试当天的松山湖实验室堪比科幻现场——搭载24核原型机的Mate70 Pro,一边运行着《原神》一边训练AI模型,机身温度还没余承东的手表发烫。更绝的是用星闪技术分摊算力,让周边设备变身“外接神经元”。小米工程师偷拍到样机视频后哀嚎:“这特么是开挂啊!” 深圳湾的“核战烟花” 3月3日22:18,高通中国总裁孟樸在春茧体育馆举起了骁龙X2样机。大屏实时连线南极科考站——科考员用搭载X2的卫星手机,0.3秒就完成了冰川裂缝的AI分析。弹幕瞬间爆炸:“这算力给企鹅用都浪费!” 压轴戏来自华强北档口的直播:商家连夜挂出了“高价回收骁龙8Gen3”的招牌,二手回收价暴跌40%。更魔幻的是,某山寨机作坊直播改装X2工程片,用热风枪焊接时炸出了蓝色火花,弹幕狂刷:“这是给手机装了个反应堆啊!” 科技版“三国演义” 这场“核芯大战”,活脱脱一部科技版的《三国演义》。高通的十八路诸侯、苹果的虎豹骑、华为的江东子弟,在算力疆场上演着现代的群雄逐鹿。但别忘了《三体》中的警告:“我消灭你,与你无关。” 警钟仍在轰鸣。X2芯片的GAA晶体管技术仍有28%的专利捏在三星手里,AI编译器依赖印度工程师团队。正如任正非所说:“不要以为穿上西服就是文明人,脚底的老茧才是硬道理。” 最震撼的细节与时间线 最震撼的细节藏在时间线里:从芯片曝光到华强北的反应,全程不过3小时。这让人想起了深圳改革开放初期的“三天一层楼”——在科技竞速的新纪元,中国制造正在用“华强北速度”重写游戏规则。 此刻,望着乙巳蛇年二月初四的弦月,不禁想起了李鸿章创办江南制造总局时的困局。从洋务运动的“师夷长技”,到今天的“造芯运动”,历史总是押着相似的韵脚。或许这就是破局者的宿命:你筑专利高墙,我开创新洪流;你玩技术封锁,我造生态汪洋。毕竟在算力江湖中,真正的王者永远属于那些敢把实验室炸成烟花的人。 网友评价到 高通竟推出如此强大之芯片,真乃科技之壮举!此芯片之威能,必将引领算力新纪元。
为啥大规模的gpu总是会有各种瓶颈而 不符合百分比正比例提升? 比如5090 170sm对5080 84sm 200%的规模,150%的PT路径追踪游戏性能 3080 10g 68sm和3060ti g6x 38sm,178%的规模,135%的4K游戏性能 6950xt和6750xt,200%的规模,150%的2k游戏性能 4060ti 34sm和4060 24sm,142%的规模,115%的游戏性能 m1ultra 64.c和m1max 32c,m2ultra 76c和m2max 38c,200%的gpu规模,150%的游戏性能 麒麟9000 5g 5nm SoC mc24和猎户座2100 mc14,170%的mali g78 gpu规模,100%的3dmark wle性能,115%的m3.1性能,136%的az2k a18pro和a18 4c,150%的gpu规模,106%的5g原神游戏性能,122% 123%的WiFi鸣潮和铁匹诺康尼游戏性能 。 GPU性能无法随规模线性提升是一个复杂的技术问题,涉及硬件架构、软件优化、物理限制等多维度因素。以下是深度分析: 1. 显存带宽瓶颈 - 典型案例:RTX 3080(760GB/s) vs 3060 Ti(448GB/s),带宽差距仅1.7倍 - 当计算单元(SM)增加200%时,显存带宽若仅提升50%,会形成数据供给缺口 - 现代GPU采用GDDR6X/GDDR7显存的功耗墙限制了带宽提升幅度 2. 并行效率天花板(阿姆达尔定律) - 游戏渲染存在30%以上不可并行代码(如场景加载、物理计算) - 理论公式:Speedup ≤ 1/((1-P)+P/N) - 当P=70%,N=2时极限加速比仅1.54倍,与实测数据高度吻合 3. 微架构资源配比失衡 - SM单元与后端单元(ROP/TMU)比例失调 - 例如RTX 4060 Ti(34SM)相比4060(24SM): - SM增加42% - ROP仅从48增至64(+3 m m3%) - 二级缓存维持32MB不变 4. 功耗墙与电压频率曲线 - 半导体工艺的电压-频率曲线呈现超线性关系 - 旗舰GPU在2.5GHz时功耗是2GHz的1.8^3≈5.8倍 - 导致实际运行频率低于理论最大值 5. 移动SoC的特殊限制 - 典型案例:M1 Ultra(64核) vs M1 Max(32核) - 统一内存架构面临总线争用问题 - 苹果实测带宽利用率:单芯片90% vs 双芯片封装75% 6. 图形API开销 - DX12/Vulkan的多线程调度存在Amdahl定律限制 - 驱动程序在8核以上CPU呈现边际效益递减 - 测试数据显示:16核CPU相比8核游戏性能提升<5% 7. 渲染管线堵塞点转移 - 不同分辨率下的瓶颈差异: | 分辨率 | 主要瓶颈 | 次要瓶颈 | |---|---|--| | 1080p | 顶点处理 | 像素填充 | | 4K | 纹理采样 | 显存带宽 | - 光追场景中BVH构建消耗40%以上算力且难以并行化 8. 半导体制造工艺限制 - 5nm工艺下晶体管密度提升80%,但互连RC延迟仅降低15% - 多芯片封装(MCM)的通信损耗: - Apple UltraFusion接口延迟增加20-30ns - NVLink带宽利用率约85% 9. 市场策略因素。 - 厂商人为设置性能梯度: - 通过驱动限制低端卡性能 - 显存位宽战略性阉割(如RTX 4060 Ti 128bit) - 性能定价非线性模型: | 价格比 | 性能比 | |---|--| | 1:1.5 | 1:1.3 | | 1:2 | 1:1.7 | 10. 光线追踪的次线性扩展 - BVH遍历存在顺序依赖 - 实测数据:每增加50%光追核心,性能提升约35% - 降噪算法占用30%算力且难以并行化 技术演进方向: - 三星研发3D-TSV堆叠显存,目标实现2TB/s带宽 - AMD Infinity Cache技术将L3缓存提升至512MB - NVIDIA采用光追单元与SM解耦设计(Blackwell架构) - Intel研发Tile-based渲染的XeSS超分技术 这些复杂因素的相互作用,导致GPU性能提升始终遵循「70%法则」——即规模每翻倍,实际性能提升约70%。这既是半导体物理规律的体现,也是商业与技术平衡的结果。
为啥大规模的gpu总是会有各种瓶颈而 不符合百分比正比例提升? 比如5090 170sm对5080 84sm 200%的规模,150%的PT路径追踪游戏性能 3080 10g 68sm和3060ti g6x 38sm,178%的规模,135%的4K游戏性能 6950xt和6750xt,200%的规模,150%的2k游戏性能 4060ti 34sm和4060 24sm,142%的规模,115%的游戏性能 m1ultra 64.c和m1max 32c,m2ultra 76c和m2max 38c,200%的gpu规模,150%的游戏性能 麒麟9000 5g 5nm SoC mc24和猎户座2100 mc14,170%的mali g78 gpu规模,100%的3dmark wle性能,115%的m3.1性能,136%的az2k a18pro和a18 4c,150%的gpu规模,106%的5g原神游戏性能,122% 123%的WiFi鸣潮和铁匹诺康尼游戏性能 。 GPU性能无法随规模线性提升是一个复杂的技术问题,涉及硬件架构、软件优化、物理限制等多维度因素。以下是深度分析: 1. 显存带宽瓶颈 - 典型案例:RTX 3080(760GB/s) vs 3060 Ti(448GB/s),带宽差距仅1.7倍 - 当计算单元(SM)增加200%时,显存带宽若仅提升50%,会形成数据供给缺口 - 现代GPU采用GDDR6X/GDDR7显存的功耗墙限制了带宽提升幅度 2. 并行效率天花板(阿姆达尔定律) - 游戏渲染存在30%以上不可并行代码(如场景加载、物理计算) - 理论公式:Speedup ≤ 1/((1-P)+P/N) - 当P=70%,N=2时极限加速比仅1.54倍,与实测数据高度吻合 3. 微架构资源配比失衡 - SM单元与后端单元(ROP/TMU)比例失调 - 例如RTX 4060 Ti(34SM)相比4060(24SM): - SM增加42% - ROP仅从48增至64(+3 m3%) - 二级缓存维持32MB不变 4. 功耗墙与电压频率曲线 - 半导体工艺的电压-频率曲线呈现超线性关系 - 旗舰GPU在2.5GHz时功耗是2GHz的1.8^3≈5.8倍 - 导致实际运行频率低于理论最大值 5. 移动SoC的特殊限制 - 典型案例:M1 Ultra(64核) vs M1 Max(32核) - 统一内存架构面临总线争用问题 - 苹果实测带宽利用率:单芯片90% vs 双芯片封装75% 6. 图形API开销 - DX12/Vulkan的多线程调度存在Amdahl定律限制 - 驱动程序在8核以上CPU呈现边际效益递减 - 测试数据显示:16核CPU相比8核游戏性能提升<5% 7. 渲染管线堵塞点转移 - 不同分辨率下的瓶颈差异: | 分辨率 | 主要瓶颈 | 次要瓶颈 | |---|---|--| | 1080p | 顶点处理 | 像素填充 | | 4K | 纹理采样 | 显存带宽 | - 光追场景中BVH构建消耗40%以上算力且难以并行化 8. 半导体制造工艺限制 - 5nm工艺下晶体管密度提升80%,但互连RC延迟仅降低15% - 多芯片封装(MCM)的通信损耗: - Apple UltraFusion接口延迟增加20-30ns - NVLink带宽利用率约85% 9. 市场策略因素。 - 厂商人为设置性能梯度: - 通过驱动限制低端卡性能 - 显存位宽战略性阉割(如RTX 4060 Ti 128bit) - 性能定价非线性模型: | 价格比 | 性能比 | |---|--| | 1:1.5 | 1:1.3 | | 1:2 | 1:1.7 | 10. 光线追踪的次线性扩展 - BVH遍历存在顺序依赖 - 实测数据:每增加50%光追核心,性能提升约35% - 降噪算法占用30%算力且难以并行化 技术演进方向: - 三星研发3D-TSV堆叠显存,目标实现2TB/s带宽 - AMD Infinity Cache技术将L3缓存提升至512MB - NVIDIA采用光追单元与SM解耦设计(Blackwell架构) - Intel研发Tile-based渲染的XeSS超分技术 这些复杂因素的相互作用,导致GPU性能提升始终遵循「70%法则」——即规模每翻倍,实际性能提升约70%。这既是半导体物理规律的体现,也是商业与技术平衡的结果。
为啥大规模的gpu总是会有各种瓶颈而 不符合百分比正比例提升? 比如5090170sm对5080 84sm 200%的规模,150%的PT路径追踪游戏性能 3080 10g 68sm和3060ti g6x 38sm,178%的规模,135%的4K游戏性能 6950xt和6750xt,200%的规模,150%的2k游戏性能 4060ti 34sm和4060 24sm,142%的规模,115%的游戏性能 m1ultra 64.c和m1max 32c,m2ultra 76c和m2max 38c,200%的gpu规模,150%的游戏性能 麒麟9000 5g 5nm SoC mc24和猎户座2100 mc14,170%的mali g78 gpu规模,100%的3dmark wle性能,115%的m3.1性能,136%的az2k a18pro和a18 4c,150%的gpu规模,106%的5g原神游戏性能,122% 123%的WiFi鸣潮和铁匹诺康尼游戏性能 。 GPU性能无法随规模线性提升是一个复杂的技术问题,涉及硬件架构、软件优化、物理限制等多维度因素。以下是深度分析: 1. 显存带宽瓶颈 - 典型案例:RTX 3080(760GB/s) vs 3060 Ti(448GB/s),带宽差距仅1.7倍 - 当计算单元(SM)增加200%时,显存带宽若仅提升50%,会形成数据供给缺口 - 现代GPU采用GDDR6X/GDDR7显存的功耗墙限制了带宽提升幅度 2. 并行效率天花板(阿姆达尔定律) - 游戏渲染存在30%以上不可并行代码(如场景加载、物理计算) - 理论公式:Speedup ≤ 1/((1-P)+P/N) - 当P=70%,N=2时极限加速比仅1.54倍,与实测数据高度吻合 3. 微架构资源配比失衡 - SM单元与后端单元(ROP/TMU)比例失调 - 例如RTX 4060 Ti(34SM)相比4060(24SM): - SM增加42% - ROP仅从48增至64(+3 m3%) - 二级缓存维持32MB不变 4. 功耗墙与电压频率曲线 - 半导体工艺的电压-频率曲线呈现超线性关系 - 旗舰GPU在2.5GHz时功耗是2GHz的1.8^3≈5.8倍 - 导致实际运行频率低于理论最大值 5. 移动SoC的特殊限制 - 典型案例:M1 Ultra(64核) vs M1 Max(32核) - 统一内存架构面临总线争用问题 - 苹果实测带宽利用率:单芯片90% vs 双芯片封装75% 6. 图形API开销 - DX12/Vulkan的多线程调度存在Amdahl定律限制 - 驱动程序在8核以上CPU呈现边际效益递减 - 测试数据显示:16核CPU相比8核游戏性能提升<5% 7. 渲染管线堵塞点转移 - 不同分辨率下的瓶颈差异: | 分辨率 | 主要瓶颈 | 次要瓶颈 | |---|---|--| | 1080p | 顶点处理 | 像素填充 | | 4K | 纹理采样 | 显存带宽 | - 光追场景中BVH构建消耗40%以上算力且难以并行化 8. 半导体制造工艺限制 - 5nm工艺下晶体管密度提升80%,但互连RC延迟仅降低15% - 多芯片封装(MCM)的通信损耗: - Apple UltraFusion接口延迟增加20-30ns - NVLink带宽利用率约85% 9. 市场策略因素。 - 厂商人为设置性能梯度: - 通过驱动限制低端卡性能 - 显存位宽战略性阉割(如RTX 4060 Ti 128bit) - 性能定价非线性模型: | 价格比 | 性能比 | |---|--| | 1:1.5 | 1:1.3 | | 1:2 | 1:1.7 | 10. 光线追踪的次线性扩展 - BVH遍历存在顺序依赖 - 实测数据:每增加50%光追核心,性能提升约35% - 降噪算法占用30%算力且难以并行化 技术演进方向: - 三星研发3D-TSV堆叠显存,目标实现2TB/s带宽 - AMD Infinity Cache技术将L3缓存提升至512MB - NVIDIA采用光追单元与SM解耦设计(Blackwell架构) - Intel研发Tile-based渲染的XeSS超分技术 这些复杂因素的相互作用,导致GPU性能提升始终遵循「70%法则」——即规模每翻倍,实际性能提升约70%。这既是半导体物理规律的体现,也是商业与技术平衡的结果。
为啥大规模的gpu总是会有各种瓶颈而 不符合百分比正比例提升? 比如5090170sm对5080 84sm 200%的规模,150%的PT路径追踪游戏性能 3080 10g 68sm和3060ti g6x 38sm,178%的规模,135%的4K游戏性能 6950xt和6750xt,200%的规模,150%的2k游戏性能 4060ti 34sm和4060 24sm,142%的规模,115%的游戏性能 m1ultra 64.c和m1max 32c,m2ultra 76c和m2max 38c,200%的gpu规模,150%的游戏性能 麒麟9000 5g 5nm SoC mc24和猎户座2100 mc14,170%的mali g78 gpu规模,100%的3dmark wle性能,115%的m3.1性能,136%的az2k a18pro和a18 4c,150%的gpu规模,106%的5g原神游戏性能,122% 123%的WiFi鸣潮和铁匹诺康尼游戏性能 。 GPU性能无法随规模线性提升是一个复杂的技术问题,涉及硬件架构、软件优化、物理限制等多维度因素。以下是深度分析: 1. 显存带宽瓶颈 - 典型案例:RTX 3080(760GB/s) vs 3060 Ti(448GB/s),带宽差距仅1.7倍 - 当计算单元(SM)增加200%时,显存带宽若仅提升50%,会形成数据供给缺口 - 现代GPU采用GDDR6X/GDDR7显存的功耗墙限制了带宽提升幅度 2. 并行效率天花板(阿姆达尔定律) - 游戏渲染存在30%以上不可并行代码(如场景加载、物理计算) - 理论公式:Speedup ≤ 1/((1-P)+P/N) - 当P=70%,N=2时极限加速比仅1.54倍,与实测数据高度吻合 3. 微架构资源配比失衡 - SM单元与后端单元(ROP/TMU)比例失调 - 例如RTX 4060 Ti(34SM)相比4060(24SM): - SM增加42% - ROP仅从48增至64(+33%) - 二级缓存维持32MB不变 4. 功耗墙与电压频率曲线 - 半导体工艺的电压-频率曲线呈现超线性关系 - 旗舰GPU在2.5GHz时功耗是2GHz的1.8^3≈5.8倍 - 导致实际运行频率低于理论最大值 5. 移动SoC的特殊限制 - 典型案例:M1 Ultra(64核) vs M1 Max(32核) - 统一内存架构面临总线争用问题 - 苹果实测带宽利用率:单芯片90% vs 双芯片封装75% 6. 图形API开销 - DX12/Vulkan的多线程调度存在Amdahl定律限制 - 驱动程序在8核以上CPU呈现边际效益递减 - 测试数据显示:16核CPU相比8核游戏性能提升<5% 7. 渲染管线堵塞点转移 - 不同分辨率下的瓶颈差异: | 分辨率 | 主要瓶颈 | 次要瓶颈 | |---|---|--| | 1080p | 顶点处理 | 像素填充 | | 4K | 纹理采样 | 显存带宽 | - 光追场景中BVH构建消耗40%以上算力且难以并行化 8. 半导体制造工艺限制 - 5nm工艺下晶体管密度提升80%,但互连RC延迟仅降低15% - 多芯片封装(MCM)的通信损耗: - Apple UltraFusion接口延迟增加20-30ns - NVLink带宽利用率约85% 9. 市场策略因素。 - 厂商人为设置性能梯度: - 通过驱动限制低端卡性能 - 显存位宽战略性阉割(如RTX 4060 Ti 128bit) - 性能定价非线性模型: | 价格比 | 性能比 | |---|--| | 1:1.5 | 1:1.3 | | 1:2 | 1:1.7 | 10. 光线追踪的次线性扩展 - BVH遍历存在顺序依赖 - 实测数据:每增加50%光追核心,性能提升约35% - 降噪算法占用30%算力且难以并行化 技术演进方向: - 三星研发3D-TSV堆叠显存,目标实现2TB/s带宽 - AMD Infinity Cache技术将L3缓存提升至512MB - NVIDIA采用光追单元与SM解耦设计(Blackwell架构) - Intel研发Tile-based渲染的XeSS超分技术 这些复杂因素的相互作用,导致GPU性能提升始终遵循「70%法则」——即规模每翻倍,实际性能提升约70%。这既是半导体物理规律的体现,也是商业与技术平衡的结果。
AMD如果出个128CU的大核心,能不能跟5090掰掰手腕? amd应该直接用两颗9070xt粘起来当旗舰卡,就像苹果m1ultra m2ultra那样,中间用if总线,2.5tb/s超高速互联,虽然是两个芯片,但是就当成一张显卡当做一个大核心统一Shader统一显存来调度 128cu 128mb 512bit gddr6 64gb,9090xtx,预计ts可以跑47000 48000 49000。 两颗9070做次旗舰,112cu 128mb 512bit gddr6 64gb,9090xt,ts可以跑39000 41000,这样一颗芯片两种封装做4张卡,成本就控制得住。 还有一张9080xt,96cu 96mb 384bit gddr6大核心,面积估计会来到540mm2 晶体管数量来到809亿晶体管 一般来说不提升频率规模直接翻倍的话,性能提升在50%-60%。比如你把6900xt降频到5700xt的频率,那它也就比5700xt强50%多 60%的样子。 也就是128cu 128mb 512bit,核心频率2900左右的9090xtx卡,性能比9070xt强60~70%(这就是苹果m1u m2u 究极融合ultrafusion的互联效率)。而5090直接比5080 强50%,5080起码比9070xt强接近20%,这么算说不定真快有5090 90%水平了。这是保证核心不严重降频,575w频率能跑到9070xt 305w水平的情况下 当然还有一种方法96CU加上96mb L3再加上384bit 24G显存的配置 9080xt,面积大约在540mm²左右,还没有达到晶圆体效率的瓶颈。光栅性能可能会超过5080(+30%)超过4090 10%。再配合FSR4,这样看来,9080xt在部分场景下还是有一战之力的。 再从跑分角度分析,假设64CU的显卡跑分为30000,5090的跑分为50000,那么128CU双芯究极融合的显卡如果效率能达到80%(虽然不太可能,感觉75%最多了),跑分可以达到48000,接近5090的水平。但问题在于,这种巨无霸芯片的成本可能会让A卡用户望而却步。毕竟,这种规模的芯片价格肯定不会便宜。
AMD这次要出个128CU的大核心,能不能跟5090掰掰手腕? amd应该直接用两颗9070xt粘起来当旗舰卡,就像苹果m1ultra m2ultra那样,中间用if总线,2.5tb/s超高速互联,虽然是两个芯片,但是就当成一张显卡当做一个大核心统一Shader统一显存来调度 128cu 128mb 512bit gddr6 64gb,9090xtx 两颗9070做次旗舰,108cu 128mb 512bit gddr6 64gb,9090xt,这样一颗芯片两种封装做4张卡,成本就控制得住。 一般来说不提升频率规模直接翻倍的话,性能提升在50%-60%。比如你把6900xt降频到5700xt的频率,那它也就比5700xt强50%多 60%的样子。 也就是128cu 128mb 512bit,核心频率2900左右的9090xtx卡,性能比9070xt强60~70%(这就是苹果m1u m2u 究极融合ultrafusion的互联效率)。而5090直接比5080 强50%,5080起码比9070xt强接近20%,这么算说不定真快有5090 90%水平了。这是保证核心不严重降频,575w频率能跑到9070xt 305w水平的情况下 当然还有一种方法96CU加上96mb L3再加上384bit 24G显存的配置 9080xt,面积大约在600mm²左右,还没有达到晶圆体效率的瓶颈。光栅性能可能会超过5080(+3 m0%)超过4090 5%。再配合FSR4,这样看来,9080xt在部分场景下还是有一战之力的。 再从跑分角度分析,假设64CU的显卡跑分为30000,5090的跑分为50000,那么128CU双芯究极融合的显卡如果效率能达到80%,跑分可以达到48000,接近5090的水平。但问题在于,这种巨无霸芯片的成本可能会让A卡用户望而却步。毕竟,这种规模的芯片价格肯定不会便宜。
AMD这次要出个128CU的大核心,能跟5090掰掰手腕? amd应该直接用两颗9070xt粘起来当旗舰卡,就像苹果m1ultra m2ultra那样,中间用if总线,2.5tb/s超高速互联,虽然是两个芯片,但是就当成一张显卡当做一个大核心统一Shader统一显存来调度 128cu 128mb 512bit gddr6 64gb,9090xtx 两颗9070做次旗舰,108cu 128mb 512bit gddr6 64gb,9090xt,这样一颗芯片两种封装做4张卡,成本就控制得住。 一般来说不提升频率规模直接翻倍的话,性能提升在50%-60%。比如你把6900xt降频到5700xt的频率,那它也就比5700xt强50%多 60%的样子。 也就是128cu 128mb 512bit,核心频率2900左右的9090xtx卡,性能比9070xt强60~70%(这就是苹果m1u m2u 究极融合ultrafusion的互联效率)。而5090直接比5080 强50%,5080起码比9070xt强接近20%,这么算说不定真快有5090 90%水平了。这是保证核心不严重降频,575w频率能跑到9070xt 305w水平的情况下 当然还有一种方法96CU加上96mb L3再加上384bit 24G显存的配置 9080xt,面积大约在600mm²左右,还没有达到晶圆体效率的瓶颈。光栅性能可能会超过5080(+30%)超过4090 5%。再配合FSR4,这样看来,9080xt在部分场景下还是有一战之力的。 再从跑分角度分析,假设64CU的显卡跑分为30000,5090的跑分为50000,那么128CU双芯究极融合的显卡如果效率能达到80%(虽然不太可能,感觉75%最多了),跑分可以达到48000,接近5090的水平。但问题在于,这种巨无霸芯片的成本可能会让A卡用户望而却步。毕竟,这种规模的芯片价格肯定不会便宜。
9070XT说不定真能打打7900XTX 5070TI 反对9070XT跑到4K去欺负79GRE算不得好汉 难绷,我据理力争,但依旧被破防楼主拉黑了 逼我单开一个帖子。 直接说结论吧。 结论就是不能纯看带宽,不能忽略缓存体系的改变 还有原楼主双标玩的挺溜。 9070xt 640gb/s的带宽就是跑到4K去欺负带宽只有576GB的7900GRE,算不得好汉。 7900xt 800g带宽就是4K必秒9070xt 640g。 又见到一个唯带宽论的。 反例我现在都能举三个。 既然带宽这么重要,直接决定4K性能,800g带宽的79xt必定吊打秒杀9070xt 640g吧。 那么带宽608g的3060ti g6x一定可以在4k游戏中,性能领先帧数高于448g的4070吧。 AMD Radeon VII有1tb的带宽,当年一定能干翻448g 1080ti吧。 3080笔记本有448g带宽,4080笔记本只有可怜的384g,那3080笔记本肯定4k游戏性能更强吧 满脑子只有显存带宽,看不得缓存是这样的。。。 nv官网里面有个页面就写着40系缓存的秘密 堆料大量的L2(或者L3)都有助于显著降低显存访问率,增加缓存命中率 实现512g的69xt(128mb无尽缓存)对标1t的3090 实现4050m(32mb L2)虽然只有192g带宽但是游戏性能仍然不逊色于3060m 336g(3mb L2) 实现4060ti 128bit 288g(32mb L2) 4k下不逊色于608g带宽的3060ti g6x 256bit(4mb L2) amd早在RDNA2 3架构的时候就请了zen团队的人来帮忙 RDNA2用大容量无尽缓存实现了等效带宽2.7x 让69xt虽然只有512g的显存带宽,但实际游戏等效带宽高达1.6t(而且这个缓存是直接即用的,都不需要游戏开发者调用专门的api来优化) nv也知道这项技术才是未来,所以在两年后才匆忙跟进 让4060ti虽然只有288g/s的显存带宽但是等效带宽有448g甚至608g 图8是知乎大佬的测试Edison Chen 大佬实测出来GeForce RTX 5070 Ti 的访存性能非常强,凭借 256-bit GDDR7 28 GT/s,达到了 861 GiB/s 的的实测带宽,是 GeForce RTX 4070 Ti 486 GiB/s 的 1.8 倍,也比 GeForce RTX 4080 FE 快 27%。 但是,5070ti只有96 rops ,4080都有112个 fp32通用算力也不如4080 纹理填充率也不如 所以底层算力都瓶颈了 配合更快的带宽,也只能游戏勉强打平4080s
我发现win on arm pc有一条出路,硬件转译指令集? 可问题是可能会被卡x86专利? 首先从技术演进、商业逻辑和未来趋势三个维度展开分析: 一、指令集与微架构的解耦革命 1. CISC到RISC的哲学转变 现代x86处理器本质上已演化为"RISC核心+CISC前端"的混合架构。Intel自P6架构(1995年Pentium Pro)引入的微指令(μops)转换机制,将复杂指令分解为RISC-like微操作,这种设计使x86在保持兼容性的同时获得了RISC架构的执行效率。数据显示,现代x86指令解码器可将约75%的CISC指令拆解为1-4个μops。 2.转译层的架构价值 - 前端解码器:专用硬件电路负责指令转译,约占芯片面积的15%(Intel Sunny Cove数据) - 微码ROM:存储复杂指令的微程序,容量通常为16-64KB - 预测执行单元:通过分支预测和乱序执行弥补转译延迟 3. 能效拐点的突破 AMD Zen4架构的每瓦性能比初代Zen提升达3.8倍,证明现代微架构技术已能有效补偿转译开销。这解释了为何原生RISC架构(如ARM)的能效优势在桌面领域被逐渐消解。 二、历史案例的技术重审 1. 全美达的VLIW实验 其Crusoe处理器采用代码变形(Code Morphing)技术,但动态二进制翻译导致: - 平均20-30%的性能损耗(SPEC2000测试) - 复杂分支预测失误率比同期Pentium III高40% - 热设计功耗仅5-7W的优势被性能差距抵消 2. IBM PowerPC的启示 1995年推出的PowerPC 615原型芯片展示了双指令集兼容可行性: - 通过微码层实现x86指令转译 - 但商业考量(维护Power架构溢价)导致项目终止 - 技术遗产体现在现代Power10处理器的混合执行引擎 三、ARM PC的硬件转译可行性 1. 技术实现路径 - 专用解码单元:需增加约5-7%的芯片面积(基于ARM Cortex-X3估算) - 内存模型适配:x86的TSO内存模型与ARM的弱内存模型需硬件级同步 - 扩展寄存器映射:通过影子寄存器实现x86的MMX/SSE扩展 2. 性能模拟推算 假设采用: - 4-wide解码前端(类似Apple M2) - 硬件辅助预测分支表(HAPT) - 微指令缓存(μCache) 预计可实现: - 85-90%的原生指令覆盖 - 平均转译延迟<3个时钟周期 - 整体性能损失控制在15%以内 3. 商业生态挑战 - 专利壁垒:x86指令集的复杂专利网(Intel持有1000+相关专利) - 软件验证:需通过微软WHCP认证的严格兼容性测试 - 市场窗口:2023年x86仍占桌面市场82%份额(Mercury Research) 四、未来架构演进趋势 1. 异构计算范式 AMD XDNA、Intel Movidius VPU等专用加速器的兴起,正在重构指令集的价值定位。计算任务逐渐向领域特定架构(DSA)迁移,通用指令集的重要性相对下降。 2. RISC-V的启示 开源指令集的崛起证明,现代微架构技术已能实现: - 单核支持多ISA(如RISC-V + 扩展指令) - 动态重配置执行单元(DARPA ERI项目成果) - 量子-经典混合指令集(IBM Qiskit Runtime) 3. 三维集成技术 基于Foveros、3D V-Cache等先进封装,未来可能实现: - 独立ISA处理单元的垂直堆叠 - 按需激活的指令集硬件层 - 光互连总线打破传统架构边界 五、战略建议 1. 差异化路径选择 - 消费端:优先转译MMX/SSE等媒体指令(覆盖90%消费应用) - 企业端:专注AVX-512等计算密集型指令的硬件加速 2. 生态构建策略 - 与Valve合作优化Proton兼容层 - 建立x86二进制签名认证体系 - 开发混合调试工具链(ARM/x86双符号支持) 3. 专利规避设计 - 采用动态微码生成技术(避免静态实现专利) - 开发基于机器学习的指令预测算法 - 创新内存屏障实现方式(规避TSO相关专利) 当前技术条件下,ARM PC通过硬件转译实现x86兼容在技术层面已具备可行性,但需要突破: - 纳米级工艺带来的晶体管成本优势(5nm以下节点) - 先进封装技术降低异构集成成本 - 开源运动对传统指令集生态的瓦解速度 这场架构革命的决胜点不在实验室,而在软件开发者生态的迁移成本与终端用户的体验阈值。历史经验表明,当转译性能损失控制在20%以内、兼容性覆盖超过95%的主流应用时,市场格局就可能发生根本性转变。Arm架构正站在这个临界点上,而硬件转译技术将成为破局的关键支点。
首页 4 5 6 7 8 9 下一页