米线山️之父的个人资料

次世代游戏主机在UE5次时代游戏中4k120的方法 XSX的下一代主机大概率性能会提升4~8倍如题先简单计算一下传统性能不提升就软件性能提升的情况 XSX上面有一款很好的游戏叫地狱之刃二游戏很好，但是以xsx的性能只能勉强1296p30帧运行我们就四舍五入，算他2k可以30吧假设有一款微软魔改定制款XSX Pro 能够直接用上UDNA1架构才支持的FSR5.0，支持ai和机器学习ml，硬件加速fp4/8，int4/8 首先把2k分辨率降到1080p，然后再从ai补到4k 30帧直接套上一个4倍游戏多重帧生成，考虑到实际性能损耗，应该是3.7倍左右的游戏帧数那实际就从2k30升级到了4k111 配上最新的次世代4K120 4K144 4K165并且支持VRR可变刷新率的woled qdoled和rgb miniled大尺寸旗舰电视一眼睛的观感是吊打以前的这光是软件上的提升就有4倍了这还没算硬件呢

DLSS揭秘：30/40系开不了dlss 3/4？别再吵了！一贴详细说明dlss 就是那个楼的楼主和那个和楼主对线严格来说都没说错说楼主没说错是因为老黄一开始就是直接这么宣传的，宣传dlss1是Deep Learning Super Sampling dlss2是DL BASED MULTI-FRAME RECONSTRUCTION，DLSS 2.0 - 基于深度学习的多帧图像重建 dlss3是fg，dlss4是mfg 为什么大家都说30系显卡开不了dlss3？为什么大家都说40系显卡开不了dlss4？大家说的肯定不是dlss 3 sr和dlss4 tsr吧大家说的是dlss3 fg和dlss4 mfg 其实习惯称呼确实是这样的，因为每一代dlss都有标志性功能和其他更新，例如dlss12就是超分的迭代，3时最大亮点是帧生成，4就是多倍帧生成。主要是老黄命名混乱，例如dlss3.5主要功能是光线重构，30系也可以开启，但里面没有帧生成，跟dlss3带帧生成的习惯又连不上了说和楼主对线的没说错是因为 DLSS包含：超分-SR，Super Resolution、帧生成-FG，Frame Generation、光线重构-RR，Ray Reconstruction三大技术，50系又新引入了多倍帧生成-MFG，Multi Frame Generation，这几个技术完全不是同一回事。这次DLSS4虽然名义上是主打MFG，但实际上FG、SR、RR的成像质量因改进学习模型而均有提升，最好不要把版本号和技术类型混为一谈以免引起歧义（比如简单粗暴的认为“DLSS3=DLSS帧生成”或者“DLSS4=DLSS多倍帧生成”），如果DLSS超分还停留在2代，那效果会比你现在看到的差非常多。在你玩的游戏目录内搜索到nvngx_dlss.dll，右键属性→详细信息，就能看到SR超采样的版本，同理nvngx_dlssd.dll为RR光线重构文件，nvngx_dlssg.dll为FG帧生成文件，都能查看到游戏采用的版本，并且只要DLSS为2及以后，都可以通过手动更换模型的方式提升DLSS的画面你要硬说20系都能开dlss4也对，但是只能开dlss4 tsr 一言以蔽之，traditionally: input sequential images, with human manipulated sampling (clamp, etc), local PC will generate high res RGB. DLSS 2.0: input sequential images, DL will make decisions on the 'best' sampling based on the huge amount of training completed in NVIDIA cloud center :) - basically a universal model -, and then local PC will generate high res RGB. Deep Learning Super Sampling 4 Transformer super resolution是基于Artificial Intelligence，Machine Learning，Deep Learning的一种Transformer Model の super resolution

为什么公认macOS很好用但实际市场占有率只有大约17.7%？为什么公认 macOS 很好用，但实际其市场占有率只有大约17.7% ？为什么公认 IOS 很好用，但实际其市场占有率只有大约27% ？当前全球移动操作系统市场，安卓占据72%份额，iOS占据27%形成双寡头垄断格局。

安卓手机HDR行业最大骗局？99%安卓手机HDR都是亮标玩具！ 1️⃣先说暴论：99%的安卓手机HDR都是亮标玩具！原因拆解： 🔌 硬件层面的先天残疾 EDID欺诈：手机通过EDID信息谎称支持HDR，但实际：屏幕亮度不够，好多安卓手机都是LCD或者比较差的super AMOLED（全局亮度＜700nit，HDR门槛是1000nit）色域虚标（号称P3广色域，实际覆盖率不足90%）芯片阉割：高通/联发科SoC的HDR处理单元缩水（对比苹果A系列芯片的独立显示引擎） HDMI输出限制（Type-C转HDMI时强制降级到SDR，参见三星S23 Ultra翻车案例） 🎭 软件层面的障眼法元数据过家家：播放HDR视频时，系统粗暴拉伸亮度曲线（类似美图秀秀一键HDR滤镜）实际信号仍是8bit SDR（通过抖动模拟10bit效果）杜比视界亮标骗局：小米12S Ultra号称支持杜比视界录制，但导出文件实为HLG格式（动态范围被砍30%）一加11播放Netflix杜比视界时，实际输出是SDR转码（通过拆解发现安卓手机edid无法支持输出HDR电平信号，只能给面板输出SDR）实验室级打脸证据：用CalMAN测试一加11播放HDR视频： PQ曲线偏差ΔE＞5（专业标准要求ΔE＜3）峰值亮度仅550nit（标称1300nit是局部瞬态值）结论：安卓阵营除了索尼Xperia 1系列等极少数机型，其他都是【亮标战士！】 --- 2️⃣ 技术暴论：为什么苹果能真·HDR？硬件暴力堆料： iPhone 14 Pro的XDR显示屏实打实全局1000nit（HDR峰值1600nit） M系列芯片内置ProRes编码器，HDR元数据直通输出生态霸权：从拍摄到剪辑再到AirPlay投屏，全程锁定杜比视界生态链安卓阵营的HDR就像散装游击队，苹果则是正规军 --- 总结显示器动态元数据：能读！但需要杜比/HDR10+认证设备安卓手机HDR：除了索尼等个别机型，基本都是【亮标安慰剂】终极建议：追求真HDR？要么买iPhone+苹果生态，要么上专业监视器看到安卓机吹HDR？直接回怼：【亮个标就想收智商税？】

三星E2500如工艺不翻车就能够GPU SNL打M4？ E2500完全可以用8wgp 16cu RDNA3.5，如果3gaa 3gap是正常工艺能媲美台积电n4p n3b n3e那种能效水平的话，SoC高频能效对比4lpp+直接提升30% ~ 50% Gpu频率直接定在1.6ghz，然后再添加12mb的IF L3缓存gpu独占的那种首先gpu频率对比上一代提升45% 然后gpu规模对比上一代也提升了33% 并且还有大容量IF L3缓存的帮助主板功耗17 18w时3dmark snl得分预计可以来到3500？相当于满血10核gpu的m4过热降频或者残血版8核gpu m4的成绩

AMD核显牙膏也只需要稍微加点IFC就能把英特尔打的找不到北如题，如图片表格所示。先说结论吧，结论就是核显继续挤牙膏用RDNA3.5，规模不变，只要给12cu配上16mb IF L3缓存，16cu的配上同样16甚至32mb的L3 性能就能够直接提升30%（gpu频率在2.3 ~ 2.9ghz的区间里是，要是降频到1.1ghz，那就没性能提升了，毕竟那个时候不存在带宽瓶颈）以RDNA2架构为例，6900HS上的680m和RX6400独显都是6WGP 12CU。680m使用LPDDR5 6400 128bit内存（内存带宽102.4GB/s），在2.2GHz时Time Spy跑分为2600分，2.4GHz时为2700分。而64bit 14Gbps GDDR6显存的RX6400（内存带宽与680m相当），在2.3GHz时Time Spy得分达到3600分，比2.4GHz的680m高出1/3。这是因为RX6400拥有16MB的IF L3缓存，而680m没有IFC，因此在相同频率下显存瓶颈明显。在RDNA3架构中，6WGP 12CU 1.1GHz的手机内存带宽约68GB/s，SNL跑分为1800分。8WGP 16CU的HX370内存带宽约120~130GB/s，2.9GHz时Time Spy得分为3700分，SNL得分为3500分；2.2GHz时Time Spy得分为3500分，SNL得分为3300分。频率提升32%，性能仅提升6%。而8WGP 16CU 2.8GHz的8040S拥有32MB IF L3缓存，在内存带宽不变的情况下，2.8GHz时Time Spy得分可达4800分，比HX370提升30%。20WGP 40CU 2.4GHz的8060S内存带宽约273GB/s，拥有32MB无尽缓存，Time Spy得分为10300分。

4K分辨率5060ti完胜TITAN V和镭7 (关DLSS) 5060ti在传统光栅性能上比TITAN V强10%~20%，比镭7强50%。其高主频和架构优势使其在4K环境下同样优于TITAN V和镭7，如果再算上DLSS技术，性能更是显著超越。有人可能会质疑5060ti的128bit带宽在4K环境下如何能跑赢TITAN V的3072bit和镭7的4096bit。如果将带宽比作水管，128bit GDDR7相当于128的水管，而3072bit和4096bit则相当于3072~4096的水管。然而，4060ti的水量（即数据处理能力）是2800，而TITAN V和镭7的水量只有170和200。此外，缓存的影响也不容忽视。以RDNA2架构为例，6900HS上的680m和RX6400独显都是6WGP 12CU。680m使用LPDDR5 6400 128bit内存（内存带宽102.4GB/s），在2.2GHz时Time Spy跑分为2600分，2.4GHz时为2700分。而64bit 14Gbps GDDR6显存TDP 43w的AMD独显RX6400最丐的版本（内存带宽与680m相当），在2.3GHz时Time Spy图形得分都能够达到3600分，比2.4GHz的680m高出1/3。这是因为RX6400拥有16MB的IF L3缓存，而680m没有IFC，因此在相同频率下显存瓶颈明显。在RDNA3架构中，6WGP 12CU 1.1GHz的手机内存带宽约68GB/s，SNL跑分为1800分。8WGP 16CU的HX370内存带宽约120~130GB/s，2.9GHz时Time Spy得分为3700分，SNL得分为3500分；2.2GHz时Time Spy得分为3500分，SNL得分为3300分。频率提升32%，性能仅提升6%。而8WGP 16CU 2.8GHz的8040S拥有32MB IF L3缓存，在内存带宽不变的情况下，2.8GHz时Time Spy得分可达4800分，比HX370提升30%。20WGP 40CU 2.4GHz的8060S内存带宽约273GB/s，拥有32MB无尽缓存，Time Spy得分为10300分。 8e GPU因为有12MB L2缓存，节省了大于40%的带宽，因此带宽对比上代8G3提升12%（9600对8533），SNL跑分2600分，提升50%。4060ti 128bit GDDR6 288GB/s因为有32MB L2缓存，节省了50%的带宽，因此在4K游戏性能上与上一代3060ti G6X 256bit 608GB/s不分伯仲。4070S 192bit G6X对比3090 384bit G6X，一个500GB/s，一个1TB/s，全靠48MB L2缓存。6900XT 504GB/s对比3080 12G 900GB/s，多亏了128MB L3 IF缓存。综上所述，带宽虽然重要，但缓存和架构优化同样对性能有着显著影响。5060ti通过高主频、架构优势和DLSS技术，在4K环境下表现出色，即使带宽较低，也能通过缓存优化实现卓越性能。

4K分辨率5060ti完胜TITAN V和镭7（关 DLLS) 5060ti传统光栅性能比TITAN V强10%~20%，比镭7强50%，再加上高主频和架构等优势，在4k环境下同样强于TITAN V和镭7，如果再算上DLSS完全是吊打。有人会吐槽5060ti的128bit带宽，4k凭什么跑赢TITAN V的3072bit 和镭7的4096b？如果把带宽比做成水管，128b gddr7就是128的水管，3072b 4096b就是3072~4096的水管，但是4060ti的水量是2800，TITAN V和镭7的水量只有是170 200

中芯国际确实在做gaa 还是想做high-end，这点好评，不过商业概率不大，有客户愿意做联合验证，慢慢完善ip，eda,设计兼容性已经很好了

被产品耽误的广告公司？苹果营销苹果特别喜欢换词。震动马达换成Taptic Engine，高分屏换成Retina Display，高刷屏换成Pro Motion，磁吸充电换成MagSafe，人脸识别换成Face ID ai换成 Machine learning机器学习ML，苹果抢占定义权唯一一次失手也就是在这次ai这里没办法，谁叫大模型太猛了，a11~a16当时的iPhone ipad甚至m1 m2系列的mac天天强调ML机器学习发布会都能被人剪辑出来30秒到60秒的不同苹果高管念读Machine learning，然后到了LLM大模型出来之后，直接画风一转变成ai ai ai ai a…… 当然从apple的角度，“震动马达”、“高分屏”、“高刷屏”、“人脸识别”，是普遍被使用的技术名称，是实现体验的实体，可能已经在世面上存在的，用户听到会代入自己已有的认知去感受。苹果若以自己的方案做出来，就不希望让人感觉只是做出已有的东西。

dlss4新超分模型的性能开销详细对比有人在网上闲逛的时候，有人发现了nv的dlss超分编程指南，文档更新至310版本的dlss（也就是现在所指的DLSS4），在里面发现了NV自己测试的transformer模型与CNN的模型开销对比（包括显存占用和生成一个结果的时间开销对比）。

中国发明无硅芯片！速度和功耗突出或重塑全球芯片格局！近日，一则振奋人心的消息在全球科技界引发了轩然大波：中国科研团队成功发明了无硅芯片，其性能表现卓越，堪称 “速度最快、功耗最低”，有望重塑全球芯片格局。这一重大突破，不仅为中国在芯片领域的发展注入了强大动力，也为全球半导体产业的变革带来了新的可能。 2 月 14 日，《自然 - 材料》杂志发表了一项来自北京大学团队的研究成果，该团队开发出了全球首款无硅芯片。这款芯片的诞生，标志着芯片技术领域迎来了一次革命性的飞跃。与英特尔和台积电最新的 3 纳米芯片相比，这款无硅芯片的速度提升了 40%，能耗却降低了 10%，如此出色的性能表现，使其被誉为 “迄今为止速度最快、能耗最低的晶体管”。长期以来，芯片行业一直受困于一个两难困境：在追求高性能的同时，难以兼顾低功耗。然而，北京大学彭海琳教授团队的这项研究成果，成功打破了这一魔咒。彭海琳教授在接受采访时表示：“如果芯片创新基于现有材料被视为‘走捷径’，那么我们开发的二维材料晶体管就相当于‘换道超车’。 ” 该团队彻底摒弃了传统芯片的基础材料 —— 硅，转而采用铋（Bismuth）基材料构建晶体管。自 20 世纪 60 年代以来，硅一直是芯片的基础材料，英特尔创始人戈登・摩尔提出的 “摩尔定律”，即芯片上的晶体管数量大约每两年翻一番，推动着整个芯片产业不断向前发展。但随着科技的进步，“摩尔定律” 逐渐失效。当晶体管尺寸不断缩小，硅基芯片面临着三大难题：短沟效应，使得晶体管栅极难以有效控制电流；量子隧穿现象，导致电子 “穿墙而过”，增加了漏电风险；功耗墙问题，微缩带来的功耗飙升，让芯片发热严重。尤其是当工艺进入 3 纳米节点以下（约为一根头发丝直径的两万分之一）时，这些问题变得愈发难以克服。那么，彭海琳团队是如何突破这些限制的呢？他们的秘密武器是一种名为 Bi₂O₂Se（硒氧化铋）的二维材料，这种材料仅有几个原子厚。此外，团队还采用了一种全新的晶体管架构 —— 全环栅场效应晶体管（GAAFET）。传统晶体管如同水流通过平面管道，而近年流行的鳍式场效应晶体管（FinFET）类似水流通过凸起的鳍片，与之不同的是，GAAFET 就像水流完全被管道包围，对电流的控制更加精准。这种架构的改变，如同从高楼大厦式的设计转变为连接桥梁式的设计，使得电子流动更加顺畅。具体来看，这种新型晶体管具有诸多神奇之处：其沟道超薄，仅 1.2 纳米厚，相当于几个原子叠加的厚度；Bi₂O₂Se 与栅氧化物 Bi₂SeO₅之间形成了近乎完美的 “天然” 平滑界面，几乎不存在缺陷；工作电压极低，仅需 0.5 伏特，远低于硅基芯片的要求；电子迁移率超高，高达 280 cm²/Vs，电子能够在其中 “畅行无阻”。目前，研究团队已经利用这种晶体管构建了非门、与非门和或非门等基本逻辑单元，充分证明了其在实际计算中的应用潜力。这项研究成果不仅是技术上的重大进步，更是一种战略上的突围。众所周知，先进芯片制造技术受到严格的出口管制，在这种情况下，彭教授坦言：“虽然我们走上这条路是出于当前制裁的必要性，但这也促使研究人员从全新的角度寻找解决方案。这种方法并非在现有技术道路上追赶，而是开辟全新赛道，实现‘换道超车’。” 不过，从实验室突破到大规模生产，仍面临诸多挑战。例如，如何实现晶圆级大规模制造，怎样使新技术与现有硅基工艺兼容，以及如何有效控制生产成本和提高良品率等。尽管如此，北京大学团队已经展示了晶圆级单片三维集成（M3D）的可能性，为未来大规模生产带来了希望。近年来，该团队在《自然》系列期刊上发表了多篇重要论文，如 2023 年报道的世界首例外延高 κ 栅介质集成型二维鳍式晶体管，而此次的二维环栅晶体管则是他们研究的进一步突破。全球半导体巨头如英特尔、台积电和欧洲微电子中心（IMEC）都在积极研发二维环栅晶体管，而北京大学团队率先取得突破性进展。彭教授表示：“这表明二维环栅器件在性能和能耗上优于先进硅基技术，它满足国际器件和系统路线图（IRDS）对埃米节点的算力与功耗要求。” 可以说，这一成果不仅仅是中国一个团队的成功，更有可能成为改变整个芯片产业未来走向的关键技术飞跃。就如同蒸汽机引发了第一次工业革命、内燃机推动了第二次工业革命、硅基芯片引领了信息革命一样，这种新型铋基二维芯片有望引领下一轮科技变革，为人工智能、量子计算等前沿领域的快速发展提供强大助力。未来，随着相关技术的不断完善与应用拓展，其对全球芯片格局的重塑作用值得期待。

【NV GB300】 nv好像瓶颈了没得架构提升了吗 🚀 NVIDIA GTC 2025 （Blackwell）GB300 AI GPU 与下一代 Rubin 平台即将发布：性能、功耗、技术细节全解析在即将召开的 NVIDIA GTC 2025（GPU 技术大会）上，NVIDIA 将发布备受期待的 GB300 “Blackwell Ultra” AI GPU，同时还将展示其下一代 Rubin AI 架构的细节。以下是对这场发布会重点内容的全面解读： 🎯 Blackwell Ultra GB300：AI 计算性能的怪兽1. 288GB HBM3E 显存• GB300 将搭载高达 288GB 的 HBM3E 显存，采用 12-high 堆叠技术，这是目前业内最高规格的显存配置之一。• 相比前代 B200，显存容量和带宽均提升了约 50%。2. 1.4kW 功耗（TDP）• GB300 的 TDP（热设计功耗）达到 1.4kW，比上一代 B200 高出约 40%。• 这使其成为目前功耗最高的 AI GPU 之一，可能需要液冷系统来稳定运行。3. 性能提升 50%• 在 FP4（浮点计算）性能上，GB300 相比 GB200 提升约 50%，预计将成为 AI 推理和训练的性能新标杆。4. 发货时间• GB300 预计将在 2025年第三季度（Q3 2025）开始量产和发货。 🔥 Rubin AI GPU：2026年的新一代 AI 引擎 NVIDIA 的下一代 Rubin 架构将在 2026 年登场，技术细节如下：1. 双逻辑芯片架构• Rubin 将采用双芯片设计，在封装上采用 TSMC N3 工艺（3nm）。• 这种设计将显著提高计算密度和能效。2. HBM4 显存：容量突破 384GB• 配备 8 组堆叠式 HBM4 显存，总容量达到 384GB，比 GB300 的 HBM3E 提升约 33%。3. 功耗提升至 1.8kW• Rubin 的 TDP 预计高达 1.8kW，功耗再创新高，可能需要更先进的散热系统。4. Vera ARM CPU 升级• Rubin 平台将集成升级后的 Vera ARM CPU，基于 TSMC 的 N3 工艺，采用 2.5D 封装结构，提升与 GPU 的协同工作能力。5. 1.6T 网络接口（ConnectX-9）• 支持每秒 1.6T 的网络带宽，通过双 ConnectX-9 NIC 实现高速互联，满足大规模 AI 训练的带宽需求。6. 预计 2026 年量产• Rubin 平台预计在 2025年底至2026年初小规模生产，并在 2026年第二季度进行大规模发货。 💡 行业影响与展望• GB300 和 Rubin 平台的推出，标志着 NVIDIA 在 AI 领域的统治地位进一步巩固。• 功耗的飙升（1.4kW → 1.8kW）显示出 AI 计算对能源和散热提出了更高的挑战，未来或将推动液冷和其他新型散热技术的普及。• Rubin 平台的双逻辑芯片架构和更高的内存容量，预计将在大型语言模型（LLM）、自动驾驶、科学计算等领域带来革命性的性能提升。 🚨 个人观点1. 性能 vs. 功耗之争• 1.4kW → 1.8kW 的功耗水平，意味着 AI GPU 正在走向“高性能=高功耗”的新极限。• 这可能会限制部分企业和科研机构的部署能力，未来可能需要通过更高效的制程或新型散热技术来平衡。2. 双芯片架构的变革• 双芯片架构（Chiplet）将成为未来 AI GPU 的主流趋势。• 这种设计不仅能提升计算性能，还可能带来更高的可扩展性。3. NVIDIA 依然是 AI 领域的统治者• GB300 和 Rubin 平台在性能和能效上的巨大跃升，表明 NVIDIA 在 AI 计算领域仍遥遥领先 m。• AMD、Intel 和中国本土厂商在 AI 芯片领域仍面临巨大的技术和市场压力。 ✅ 总结• GB300 → 功耗 1.4kW，性能提升 50%，288GB HBM3E• Rubin → 双芯片架构，功耗 1.8kW，384GB HBM4，2026年量产• NVIDIA 通过 Blackwell 和 Rubin 架构，稳固 AI 计算领域的领先地位• AI 计算已进入“极致性能 + 极致功耗”时代，未来的散热与能耗管理将成为重要课题 👉 未来的 AI 计算不再是“性能 vs. 功耗”的妥协，而是“如何在极限功耗下保持极限性能”。NVIDIA 再次将 AI 计算推向新的高度，未来两年将是 AI 硬件领域的激烈竞争期。#想买原价显卡怎么比登天还难# #50系显卡还是老黄熟悉的刀法#

M3U低功耗运行671b 🚀 苹果 M3 Ultra：用 200W 功耗轻松运行 6710 亿参数的 DeepSeek R1，AI 性能再突破！苹果在本周正式推出了全新的 M3 Ultra 处理器，搭载于最新的 Mac Studio 之中，这款芯片展现出了惊人的 AI 处理能力。在 YouTuber Dave2D 的测试中，M3 Ultra 仅用 200W 功耗，成功运行 DeepSeek R1 的最大 6710 亿参数模型，一举击败 M2 Ultra、M4 Max 等前代产品，标志着苹果在 AI 处理能力上达到了新的高度。 🔥 M3 Ultra 的技术突破：32 核 CPU + 80 核 GPU + 512GB 统一内存 M3 Ultra 采用苹果自研的 UltraFusion 技术，将两块 M3 Max 芯片合并成一颗完整的 M3 Ultra 芯片，核心规格达到：• 32 核 CPU• 80 核 GPU• 支持最高 512GB 统一内存（相比 M2 Ultra 和 M4 Max 的 128GB 大幅提升）• 功耗控制在 200W 以下，超低功耗下保持极限性能 🧠 DeepSeek R1 性能测试：M3 Ultra 碾压对手在 Dave2D 的测试中，M3 Ultra 在 DeepSeek R1 不同参数规模下展现了统治级的性能表现：模型参数如图 ✅ M3 Ultra 在所有模型下均实现了领先性能，尤其是在 DeepSeek R1 的 6710 亿参数下，M2 Ultra 和 M4 Max 甚至无法运行。 💡 苹果 M3 Ultra 的架构优势：极致能效比 + 超强内存带宽 M3 Ultra 的成功在于其极致的能效比和内存带宽：• 512GB 的统一内存为大型 AI 模型提供了充足的运算空间。• 仅 200W 的功耗，相比传统的多 GPU 方案（通常需要 2000W 以上），M3 Ultra 的能耗表现堪称“奇迹”。• 在 DeepSeek R1 的 6710 亿参数模型中，M3 Ultra 甚至比 70B 规模的模型运行得更高效。 🔎 在 AI 领域，功耗与性能之间的平衡是关键，M3 Ultra 展现了苹果在芯片设计上的深厚功底。 🏆 苹果 M3 Ultra = 未来 AI 芯片的新标杆？在 AI 领域，M3 Ultra 的优势体现在：✔️ 极致的能效比✔️ 超强的内存带宽✔️ 全新的统一架构✔️ 碾压同类芯片的 AI 处理能力在 200W 功耗下，M3 Ultra 完成了其他多 GPU 系统需要 2000W 才能完成的任务。M3 Ultra 的成功不仅巩固了苹果在 AI 领域的领先地位，更在高性能低功耗的 AI 芯片市场中开创了新的标准。 🎯 编者点评：M3 Ultra 让 AI 训练和推理走向“平民化” 苹果通过 M3 Ultra 证明了一件事——AI 高性能并不需要高功耗。• 以往，运行大型 AI 模型需要昂贵的 A100、H100 级别的 NVIDIA 显卡，并且动辄数千瓦的功耗。• M3 Ultra 仅用 200W 功耗，便成功运行 6710 亿参数的 DeepSeek R1，打破了行业常规。• 如果苹果将这项技术扩展到未来的 iPhone 和 iPad 芯片中，AI 设备市场将迎来彻底的革命。 🚀 苹果在 AI 芯片上的突破，或将成为 AI 发展史上的重要节点。M3 Ultra 的“极致能效比”或许正是 AI 未来的新方向。 👉 苹果 M3 Ultra = AI 领域的 Game Changer！

完美解决掉三角洲机密有这么多卡战备老鼠的问题从原有的装备等级限制改成战备限制装备超过18.5万就不让进普通超过45万就不让进机密再形成一个超绝密和究极绝密难度超绝密战备200万，究极绝密600万超绝密只出紫金红究极绝密只出红同时所有地图都有所有难度普通巴克什和航天回来还有绝密大坝甚至超级绝密，究极绝密大坝或者还有一种方案普通只让带入最多二级甲，绿弹机密最多4级甲4级头，蓝弹绝密最多六级甲六级头，红弹

5060Ti 16G竟被4080s吊打？4K120帧梦碎！老黄说5070打4090，那么5060ti打4080？首先明确一点，如果游戏玩家5060ti买16g或许就是为了路径追踪玩4k120，开dlss4超级性能从720p30帧ai到4k120 但是这会有一个问题，首先排除1080p补4k因为路径追踪性能开销太大 720p补4k，一个像素点生成他九宫格周围的8个像素点，可以，但是会比较糊，哪怕用新模型也会显著的有点糊画质拉满，但依旧画面很糊，怎么办呢？这个时候就可以刚开始降低画质了，把材质拉低一点来匹配一下比较糊的画面材质都拉低了，那这16g显存选手用途在哪呢？毕竟他的性能差不多只有5080的一半多一点 5090的1/3不到 5090可以跑4k248帧的路径追踪2077游戏，这张显卡只能跑4k85帧，只能勉强打平4080s 5090可以跑4k284帧的心灵杀手2路径追踪拉满dlss4 mfg 4x超级性能游戏（dlss 1220p 1.5k补4k，71帧补284帧，当然这个情况下先显存占用会来11.9g，5070有爆显存风险）这张显卡只能跑4k 85 95帧，只能勉强接近4k100帧畅玩路径追踪心灵杀手2而已而且这个性能甚至还不如4090的2x fg 4k120 只能勉强打平4080s的2x fg，4k85 fps 最大的问题是4倍补帧在80~100帧的区间内破碎比较多，画面品质不算很好，而且延迟是以键鼠游玩，很难接受的，当然手柄可以

DDR5 时代的 PC 性能将有多少提升？ 1、关于 IPC，贴个知乎大佬测试 CPU 2017 的实际 IPC 吧： ArrowLake P-Core的IPC是2.57，E-Core 是2.41。 RaptorLake P-Core是2.35，E-Core是 1.95。 Zen 5 IPC 是2.61，Zen4 是2.33，Zen3是 2.16。 2、日常应用没啥特别感觉，大部分人无法在日常应用里感知10% 的性能差别，不过 DDR5 对新平台来说是必须的，所以如果打算上Zen5、ArrowLake 你不需要考虑 DDR4。 DDR5 主要的规格提升有几个： 1.容量更大。从DDR4的16bit/颗粒提升到 64bit/颗粒；允许堆叠层数从4层提高到8 层。最终结果就是，现在最大单条256G 的DDR4服务器内存条，将来会有单根2T 的DDR5服务器内存条。消费级没有堆叠，没有寄存器的UDIMM，会从现在最大单根32G提高到128G。不过，这对性能没有什么帮助，但对于榨干大家的钱包比较有帮助。 2. 带宽更高。从DDR4-3200提升到 DDR5-4800，增加50%。将来会有 DDR5-6400，增加100%。也就是单根 DDR5 UDIMM就能提供现在双通道DDR4 3200的带宽。但很显然，现在绝大部分应用并不能从双通道中获益，即便能获益，性能提升通常在5-10%左右，只有极个别真的很渴求带宽的应用，能有 20-30%左右的性能提升。 3. 单根UDIMM从64bit改为2x32bit。这个和上面所说的单根带宽翻倍结合起来，就完全是一根实现DDR4双通道了。理论上延迟会有一定程度的降低，具体情况要看DDR5 主要的规格提升有几个： 1.容量更大。从DDR4的16bit/颗粒提升到 64bit/颗粒；允许堆叠层数从4层提高到8 层。最终结果就是，现在最大单条256G 的DDR4服务器内存条，将来会有单根2T 的DDR5服务器内存条。消费级没有堆叠，没有寄存器的UDIMM，会从现在最大单根32G提高到128G。不过，这对性能没有什么帮助，但对于榨干大家的钱包比较有帮助。 2. 带宽更高。从DDR4-3200提升到 DDR5-4800，增加50%。将来会有 DDR5-6400，增加100%。也就是单根 DDR5 UDIMM就能提供现在双通道DDR4 3200的带宽。但很显然，现在绝大部分应用并不能从双通道中获益，即便能获益，性能提升通常在5-10%左右，只有极个别真的很渴求带宽的应用，能有 20-30%左右的性能提升。 3. 单根UDIMM从64bit改为2x32bit。这个和上面所说的单根带宽翻倍结合起来，就完全是一根实现DDR4双通道了。理论上延迟会有一定程度的降低，具体情况要看实际产品。实际产品。。。可以预见的是CPU的进一步提升对于轻度用户来说并不会有非常明显的感知，而且会越来越不明显，比如文字工作，编程工作，画图工作等等。而一些实时性较高的场合会更明确的体会到GPU DSP性能提升带来的结果，比如8K视频解码，比如4K的全屏3D游戏渲染等等涉及到多帧动画视频的工作。 DDR5 会进一步提升集成显卡+的性能，使得未来的集成显卡能够带动早年间的大型3D 游戏。但对CPU性能的提升不会有非常明显的感知，因为对于图片工作以及文字工作者来说，CPU的性能确实需求不大。对于视频工作以及游戏用户来说，依然也是对GPU的性能需求大于对CPU的性能需求。至于apple M系列，虽然CPU表现还不错，但一方面缺乏强大的GPU，二方面缺乏需求强大 GPU的游戏与生产力应用，所以个人认为它实际上很难对PC造成很大竞争。且不说M1是不是非常强，就算M1的CPU真的是顶级的，现在CPU的性能也根本不是影响用户体验的主要瓶颈，感知最明显的其实就是GPU性能。而M1的GPU性能并没有特别值得说道的地方。所以对于等等党来说，你唯一需要等的就是显卡价格回归合理价位，至于CPU体系其实，目前主流的真的都已经足够用了。除非，将来发明某种新的技术，让CPU 也大量参与到显卡渲染等实时性要求较高的运算当中去。才会对CPU性能需求提升。一个系统，有硬盘I0，寻道时间，GPU渲染，内存大小，等等很多瓶颈，相对来说， CPU可能是最难造成瓶颈的那一个。所以不用过分在意CPU性能。其他很多环节对最终体验的影响可能都比CPU更大。当然，有些游戏对CPU 性能或者说多线程能力会比较敏感，例如蜘蛛侠系列。

0.85毫米超薄做到1TB！手机首次支持UFS 4.1 0.85毫米超薄做到1TB！长江存储晶栈4.0杀入手机，首次支持UFS 4.1 除了SSD固态硬盘，UFS嵌入式存储也将是长江存储的重点方向，深圳闪存市场峰会上就公开了三款强大的新品。 UC420：长江存储首款支持UFS 4.1标准的嵌入式闪存芯片，首次基于晶栈4.0架构。容量可选256GB、512GB、1TB，也是长江存第一颗1TB UFS芯片。但是，它的厚度只有0.85毫米，超薄的封装使之非常适合折叠屏手机。即便如此，仍然可以做到饱和带宽与满血性能，堪称业界标杆，非常适合旗舰机型。此外，它还可以满足各家AI旗舰手机的特色功能定制。 2024年底，长江存储发布了首款基于新一代晶栈4.0闪存架构的PCIe 5.0 SSD产品致态TiPro9000，无论性能还是功耗发热都趋于完美，但官方对新架构并未做过多介绍。在深圳举办的2025年闪存市场峰会上，长江存储首次公开揭秘了晶栈4.0闪存架构的诸多细节。 2018年以来，场景存储的晶栈架构已经演化了四个大版本，存储密度越来越高，可靠性越来越稳，IO速度越来越快，目前已达3600MT/s，同时不断引入新的先进工艺和技术，这一代就加入了SCT。晶栈4.0延续了背面源极连接(BSSC)，采用混合晶圆键合结构，20孔垂直通道设计，持续改善生产效率，并提高产量。其中，晶栈4.0 TLC产品代号X4-9060，致态TiPro9000用的就是它。单Die容量512Gb，密度比上代X3-9060提升了超过48％，是已量产同类产品中密度最高的，IO速度也提升了50％。同时，新闪存高效易用，在设计上兼容前两代X2/X3-9060，可以快速迁移。晶栈4.0 QLC产品代号X4-6080，比上代X3-6070密度提升了42％，单Die容量从1Tb翻番到2Tb(512GB)，单盘容量可以轻松做到4TB甚至更大。同时，IO速度提升了50％，吞吐量提升了147％，耐久度提升了33％。晶栈4.0的堆叠层数未公开。三星已做到286层，设计完成400+层，明年量产。美光量产232层，下一步276层。铠侠现为218层，最近已宣布332层。 SK海力士已宣布321层，并率先量产300+层。铠侠/西部数据为218层，不过西部数据闪存业务已拆分给闪迪。

1tb显存疯牛病版5060ti 4070s显卡的可行方案当然我说的不是amd ssg这玩意，拿ssd固态硬盘当显存还是有点太超前了些我说的是NM101芯片，属于SLC 3D堆叠存储，使用标准的1.2V I/O电压、3200 MT/s传输接口，因此可用于SSD。 NM102延续了SLC架构、1.2V I/O电压、64Gb/128Gb单颗容量，同时在在性能上实现了重大突破，支持4K高速访问，读带宽高达3.2GB/s。它是“SCM”即存储类内存(Storage Class Memory)的一种，可增加存储容量、降低成本，进而大幅提高存储系统整体性能，已作为独立存储介质，广泛用于数据中心、服务器、AI等领域。简单来说就是这玩意单颗16bit，16gb 电压1.2v 速率3200mt/s 简简单单堆个64颗（pcb上面留16个槽位，正反两面都贴个两颗粒就是64了）就直接上1tb了，带宽我算过的大概等于LPDDR5X 6400 512bit，也就是409.6gb/s，速度是pcie5.0固态硬盘的24倍相当于5060ti 128bit gddr7 448gb/s大概91%的速度，相当于4070s 80%的速度在gt610 1tb疯牛病版之后，我们还可以有5060ti 4070s疯牛病，这么大的显存，足够把整个deepseek R1 671b大模型装进去

1tb显存疯牛病版5060显卡的可行方案当然我说的不是amd ssg这玩意，拿ssd固态硬盘当显存还是有点太超前了些我说的是NM101芯片，属于SLC 3D堆叠存储，使用标准的1.2V I/O电压、3200 MT/s传输接口，因此可用于SSD。 NM102延续了SLC架构、1.2V I/O电压、64Gb/128Gb单颗容量，同时在在性能上实现了重大突破，支持4K高速访问，读带宽高达3.2GB/s。它是“SCM”即存储类内存(Storage Class Memory)的一种，可增加存储容量、降低成本，进而大幅提高存储系统整体性能，已作为独立存储介质，广泛用于数据中心、服务器、AI等领域。简单来说就是这玩意单颗16bit，16gb 电压1.2v 速率3200mt/s 简简单单堆个64颗（pcb上面留16个槽位，正反两面都贴个两颗粒就是64了）就直接上1tb了，带宽我算过的大概等于LPDDR5X 6400 512bit，也就是409.6gb/s，速度是pcie5.0固态硬盘的24倍相当于5060 128bit gddr7 448gb/s大概91%的速度在gt610 1tb疯牛病版之后，我们还可以有5060疯牛病，这么大的显存，足够把整个deepseek R1 671b大模型装进去

为什么总见到有人说80以下的显卡没必要考虑路径追踪明明老黄是建议5060 60ti玩1080p路径追踪跑dlss4 240fps 5070 70ti玩1440p路径追踪跑dlss4 240fps 5080 90玩2160p 4K路径追踪跑dlss4 240fps 当然要用5070 12g和5060ti 16g玩4k也不是不行，就是需要降低点画质了，在降画质这里来说，路径最终就是第1个被砍掉的，毕竟开销太大

AMDIntel逆袭！超大核显统一内存架构，入门独显彻底凉凉？感觉amd和intel有望逆风翻盘啊，反正入门级独显都没人做了，将来就用超大核显来代替入门独显比如主板用256bit 128gb LPDDR6 14400的内存可以提供900gb/s的带宽，主板上密密麻麻的散热鳍片和风扇给统一内存架构提供可观的散热就算cpu分走100g那超大核显还有800g呢完全可以把iod做大一点，里面装下超大的核显或者主板做双插槽一个cpu插槽，一个gpu插槽 280 360 420水冷做双头水冷先给gpu散热，再给cpu散热真正意义上实现显存自由

5060ti 16g可能会很值得购买，性能可能会逼近3080 综合目前泄露出来的规格来看5060ti 16g是gb206 blackwell架构 36sm 48rops 4608cuda 128bit 16gb gddr7 448gb/s 32mb L2 36sm跑3.2ghz时fp32算力30tf 3080 10g是ampere架构68sm 96rops 8704cuda 320bit gddr6x 10gb 760gb/s 5mb L2 68sm跑1.7ghz时fp32算力30tf 根据英伟达之前在4060ti出的时候揭露的白皮书，巨量的L2可以显著增加L2缓存的命中率降低显存访问实现提升的等效带宽接近翻倍注意4070s只需要504gb/s的带宽就可以在4K游戏性能上媲美甚至超过900gb/s的3080 12g 虽然5060ti规模只有3080 10g的一半多一点（rops更是只有一半），但是凭借着接近翻倍的频率，或许可以达到接近的游戏性能

AMDIntel逆袭！超大核显统一内存架构，入门独显彻底凉凉？感觉amd和intel有望逆风翻盘啊，反正入门级独显都没人做了，将来就用超大核显来代替入门独显比如下一代的主板用256bit 128gb LPDDR6 14400的内存可以提供900gb/s的带宽，主板上密密麻麻的散热鳍片和风扇给统一内存架构提供可观的散热就算cpu分走100g那超大核显还有800g呢完全可以把iod做大一点，里面装下超大的核显或者主板做双插槽一个cpu插槽，一个gpu插槽 280 360 420水冷做双头水冷先给gpu散热，再给cpu散热真正意义上实现显存自由

5060ti 16G性能直逼3080？黑科技逆袭 5060ti 16g可能会很值得购买，性能可能会逼近3080 undefined 36sm跑3.2ghz时fp32算力30tf 3080 10g是ampere架构68sm 96rops 8704cuda 320bit gddr6x 10gb 760gb/s 5mb L2 68sm跑1.7ghz时fp32算力30tf 根据英伟达之前在4060ti出的时候揭露的白皮书，巨量的L2可以显著增加L2缓存的命中率降低显存访问实现提升的等效带宽接近翻倍注意4070s只需要504gb/s的带宽就可以在4K游戏性能上媲美甚至超过900gb/s的3080 12g 虽然5060ti规模只有3080 10g的一半多一点（rops更是只有一半），但是凭借着接近翻倍的频率，或许可以达到接近的游戏性能

老黄卡显存太贵？8通道DDR5内存虚拟显存速度吊打4060ti 想到了一些省钱的法子老黄显卡显存太金贵，老黄亲人两行泪没办法但可以用四通道的cpu ddr5内存来充当虚拟显存比如7960x，四通道ddr5 5200就可以贡献166gb/s 7955wx的八通道更是可以333gb/s 超过4060ti的288gb/s 但是有一些问题首先吃主板pcie4.0 5.0带宽而且中间传输过程中一定有损耗其次，四通道八通道内存控制器的cpu本身就不便宜 7945wx 7955wx 八通道可以有333gb/s 但是一颗就要8000，12000 感觉或许还不如把这钱加在显卡上？以及主板不好超频还有支持四通道八通道工作站或服务器cpu的主板也太金贵但是跑全量的deepseek R1 671b大模型会用上的

老黄卡显存太贵？8通道DDR5内存虚拟显存速度吊打4060ti 想到了一些省钱的法子老黄显卡显存太金贵，老黄亲人两行泪没办法但可以用四通道的cpu ddr5内存来充当虚拟显存比如7960x，四通道ddr5 5200就可以贡献166gb/s 7955wx的八通道更是可以333gb/s 超过4060ti的288gb/s 但是有一些问题首先吃主板pcie4.0 5.0带宽而且中间传输过程中一定有损耗其次，四通道八通道内存控制器的cpu本身就不便宜 7945wx 7955wx 八通道可以有333gb/s 但是一颗就要8000 1200 感觉或许还不如把这钱加在显卡上？以及主板不好超频还有支持四通道八通道工作站或服务器cpu的主板也太金贵但是跑全量的deepseek R1 671b大模型会用上的

难怪好多发烧友说盒子只选Apple TV 看看这些安卓盒子都是什么垃圾三五百块只能买到4核心a55 七八百块才能买到1a76 + 4a55或者2a73+2a55 1500才有4a76 + 4a55 反观atv 千元左右就有a15了单核多核性能都是倍杀2ghz左右的a76

看到小米成功的经验大家都骂抄袭完全没有必要这是市场的选择年轻人就喜欢保时捷法拉利的外形瞎创新搞特色就是瞎整抄袭个外观没啥大毛病还记得国产手机搞升降摄像头那个设计师的认知连我都不如很多所谓的创新完全没有必要小米就强在供应链整合还有营销不得不服和苹果很像至于小米做芯片作为企业得有利润先生存下去再去谈创新还不要说搞芯片了风险有多大即使造出来卖不动也是亏损性能不好价格贵也没人买慢慢等急不得

高通“核弹”震撼发布！18核芯片突破算力极限引言 “得芯片者得天下，失架构者如断腕！”2025年2月31日深夜，这句手机圈的黑话在深圳华强北轰然炸响。当苹果A18 Pro还在为3纳米工艺良率焦头烂额，华为麒麟9100刚突破5G射频封锁之际，高通突然在X平台扔下了一颗深水炸弹——骁龙X2芯片将集成18个Oryon V3核心，这无异于给手机装上了服务器级的“算力引擎”！要知道，当前旗舰芯片普遍停留在8-10核，联发科天玑9400堆到12核就被戏称为“火炉炼丹”。而高通此次直接突破了物理极限，背后得益于台积电第二代N3E工艺的加持，晶体管密度飙升至2.8亿/mm²。然而，看客们都在窃窃私语：去年被华为“背刺”的高通，莫非偷学了东方的“炼金术”？更令人震惊的是，这枚“性能怪兽”的AI算力高达90TOPS，比苹果A18 Pro多出三倍，让雷军都连夜改口：“小米15 Pro或成最大输家！” 第一幕：圣地亚哥实验室的“核爆”时刻 2024年圣诞夜，高通首席架构师詹姆斯盯着示波器上跳动的波形，突然把咖啡泼在了草稿纸上：“为什么不能把大核当乐高积木来玩呢？”这个疯狂的想法源自他陪女儿搭积木时的顿悟——既然单核性能遇到了瓶颈，那就用数量来碾压！三个月后，他们在实验室里玩出了新花样：把三个Oryon V3核心封装成“超核模块”，六个模块组成蜂窝结构。测试数据让所有人震惊——多线程性能暴涨240%，但功耗曲线却像过山车一样刺激。直到台积电送来N3E工艺样片，工程师老张用南京话吼了一句：“乖乖隆地咚，这特么是给手机装上了飞机引擎啊！” 第二幕：库克的“凌晨惊魂” 苹果供应链总监艾米丽看到泄露的参数时，正在库比蒂诺啃着沙拉。她冲进库克的办公室：“X2芯片的Geekbench5多核跑分破了3万，咱们A18 Pro才1万不到！”更致命的是AI单元的设计——高通用“动态核池”技术，能把18个核心任意组合成AI加速阵列，这相当于让ChatGPT在手机端进化出了“九头蛇”形态。最巧妙的反击藏在专利文件里。高通把芯片架构图伪装成了“乐高星球大战说明书”，成功绕开了ARM的架构授权限制。知情人士透露，他们在迪士尼乐园签下了技术协议，合同封面上印着尤达大师的名言：“要么做，要么不做，没有试试看！” 第三幕：松山湖的“备胎起义” 华为海思掌门人何庭波看到新闻时，正在东莞吃着烧鹅濑粉。她抄起电话打给了“松山湖纵队”：“启动‘九章计划’，把达芬奇架构堆到24核！”这支秘密团队，竟然用5G基站芯片的封装技术，在手机端玩出了“乾坤大挪移”。测试当天的松山湖实验室堪比科幻现场——搭载24核原型机的Mate70 Pro，一边运行着《原神》一边训练AI模型，机身温度还没余承东的手表发烫。更绝的是用星闪技术分摊算力，让周边设备变身“外接神经元”。小米工程师偷拍到样机视频后哀嚎：“这特么是开挂啊！” 深圳湾的“核战烟花” 3月3日22:18，高通中国总裁孟樸在春茧体育馆举起了骁龙X2样机。大屏实时连线南极科考站——科考员用搭载X2的卫星手机，0.3秒就完成了冰川裂缝的AI分析。弹幕瞬间爆炸：“这算力给企鹅用都浪费！” 压轴戏来自华强北档口的直播：商家连夜挂出了“高价回收骁龙8Gen3”的招牌，二手回收价暴跌40%。更魔幻的是，某山寨机作坊直播改装X2工程片，用热风枪焊接时炸出了蓝色火花，弹幕狂刷：“这是给手机装了个反应堆啊！” 科技版“三国演义” 这场“核芯大战”，活脱脱一部科技版的《三国演义》。高通的十八路诸侯、苹果的虎豹骑、华为的江东子弟，在算力疆场上演着现代的群雄逐鹿。但别忘了《三体》中的警告：“我消灭你，与你无关。” 警钟仍在轰鸣。X2芯片的GAA晶体管技术仍有28%的专利捏在三星手里，AI编译器依赖印度工程师团队。正如任正非所说：“不要以为穿上西服就是文明人，脚底的老茧才是硬道理。” 最震撼的细节与时间线最震撼的细节藏在时间线里：从芯片曝光到华强北的反应，全程不过3小时。这让人想起了深圳改革开放初期的“三天一层楼”——在科技竞速的新纪元，中国制造正在用“华强北速度”重写游戏规则。此刻，望着乙巳蛇年二月初四的弦月，不禁想起了李鸿章创办江南制造总局时的困局。从洋务运动的“师夷长技”，到今天的“造芯运动”，历史总是押着相似的韵脚。或许这就是破局者的宿命：你筑专利高墙，我开创新洪流；你玩技术封锁，我造生态汪洋。毕竟在算力江湖中，真正的王者永远属于那些敢把实验室炸成烟花的人。网友评价到高通竟推出如此强大之芯片，真乃科技之壮举！此芯片之威能，必将引领算力新纪元。

苹果推出 M3 Ultra 芯片Mac Studio1999刀 IT之家 3 月 5 日消息，苹果现已推出搭载M4 Max / M3 Ultra芯片的Mac Studio，该机延续了家族式设计，定价为1999 美元起。 IT之家正在更新本文

为啥大规模的gpu总是会有各种瓶颈而不符合百分比正比例提升？比如5090 170sm对5080 84sm 200%的规模，150%的PT路径追踪游戏性能 3080 10g 68sm和3060ti g6x 38sm，178%的规模，135%的4K游戏性能 6950xt和6750xt，200%的规模，150%的2k游戏性能 4060ti 34sm和4060 24sm，142%的规模，115%的游戏性能 m1ultra 64.c和m1max 32c，m2ultra 76c和m2max 38c，200%的gpu规模，150%的游戏性能麒麟9000 5g 5nm SoC mc24和猎户座2100 mc14，170%的mali g78 gpu规模，100%的3dmark wle性能，115%的m3.1性能，136%的az2k a18pro和a18 4c，150%的gpu规模，106%的5g原神游戏性能，122% 123%的WiFi鸣潮和铁匹诺康尼游戏性能。 GPU性能无法随规模线性提升是一个复杂的技术问题，涉及硬件架构、软件优化、物理限制等多维度因素。以下是深度分析： 1. 显存带宽瓶颈 - 典型案例：RTX 3080(760GB/s) vs 3060 Ti(448GB/s)，带宽差距仅1.7倍 - 当计算单元(SM)增加200%时，显存带宽若仅提升50%，会形成数据供给缺口 - 现代GPU采用GDDR6X/GDDR7显存的功耗墙限制了带宽提升幅度 2. 并行效率天花板（阿姆达尔定律） - 游戏渲染存在30%以上不可并行代码（如场景加载、物理计算） - 理论公式：Speedup ≤ 1/((1-P)+P/N) - 当P=70%，N=2时极限加速比仅1.54倍，与实测数据高度吻合 3. 微架构资源配比失衡 - SM单元与后端单元(ROP/TMU)比例失调 - 例如RTX 4060 Ti(34SM)相比4060(24SM)： - SM增加42% - ROP仅从48增至64(+3 m m3%) - 二级缓存维持32MB不变 4. 功耗墙与电压频率曲线 - 半导体工艺的电压-频率曲线呈现超线性关系 - 旗舰GPU在2.5GHz时功耗是2GHz的1.8^3≈5.8倍 - 导致实际运行频率低于理论最大值 5. 移动SoC的特殊限制 - 典型案例：M1 Ultra(64核) vs M1 Max(32核) - 统一内存架构面临总线争用问题 - 苹果实测带宽利用率：单芯片90% vs 双芯片封装75% 6. 图形API开销 - DX12/Vulkan的多线程调度存在Amdahl定律限制 - 驱动程序在8核以上CPU呈现边际效益递减 - 测试数据显示：16核CPU相比8核游戏性能提升<5% 7. 渲染管线堵塞点转移 - 不同分辨率下的瓶颈差异： | 分辨率 | 主要瓶颈 | 次要瓶颈 | |---|---|--| | 1080p | 顶点处理 | 像素填充 | | 4K | 纹理采样 | 显存带宽 | - 光追场景中BVH构建消耗40%以上算力且难以并行化 8. 半导体制造工艺限制 - 5nm工艺下晶体管密度提升80%，但互连RC延迟仅降低15% - 多芯片封装(MCM)的通信损耗： - Apple UltraFusion接口延迟增加20-30ns - NVLink带宽利用率约85% 9. 市场策略因素。 - 厂商人为设置性能梯度： - 通过驱动限制低端卡性能 - 显存位宽战略性阉割（如RTX 4060 Ti 128bit） - 性能定价非线性模型： | 价格比 | 性能比 | |---|--| | 1:1.5 | 1:1.3 | | 1:2 | 1:1.7 | 10. 光线追踪的次线性扩展 - BVH遍历存在顺序依赖 - 实测数据：每增加50%光追核心，性能提升约35% - 降噪算法占用30%算力且难以并行化技术演进方向： - 三星研发3D-TSV堆叠显存，目标实现2TB/s带宽 - AMD Infinity Cache技术将L3缓存提升至512MB - NVIDIA采用光追单元与SM解耦设计（Blackwell架构） - Intel研发Tile-based渲染的XeSS超分技术这些复杂因素的相互作用，导致GPU性能提升始终遵循「70%法则」——即规模每翻倍，实际性能提升约70%。这既是半导体物理规律的体现，也是商业与技术平衡的结果。

为啥大规模的gpu总是会有各种瓶颈而不符合百分比正比例提升？比如5090 170sm对5080 84sm 200%的规模，150%的PT路径追踪游戏性能 3080 10g 68sm和3060ti g6x 38sm，178%的规模，135%的4K游戏性能 6950xt和6750xt，200%的规模，150%的2k游戏性能 4060ti 34sm和4060 24sm，142%的规模，115%的游戏性能 m1ultra 64.c和m1max 32c，m2ultra 76c和m2max 38c，200%的gpu规模，150%的游戏性能麒麟9000 5g 5nm SoC mc24和猎户座2100 mc14，170%的mali g78 gpu规模，100%的3dmark wle性能，115%的m3.1性能，136%的az2k a18pro和a18 4c，150%的gpu规模，106%的5g原神游戏性能，122% 123%的WiFi鸣潮和铁匹诺康尼游戏性能。 GPU性能无法随规模线性提升是一个复杂的技术问题，涉及硬件架构、软件优化、物理限制等多维度因素。以下是深度分析： 1. 显存带宽瓶颈 - 典型案例：RTX 3080(760GB/s) vs 3060 Ti(448GB/s)，带宽差距仅1.7倍 - 当计算单元(SM)增加200%时，显存带宽若仅提升50%，会形成数据供给缺口 - 现代GPU采用GDDR6X/GDDR7显存的功耗墙限制了带宽提升幅度 2. 并行效率天花板（阿姆达尔定律） - 游戏渲染存在30%以上不可并行代码（如场景加载、物理计算） - 理论公式：Speedup ≤ 1/((1-P)+P/N) - 当P=70%，N=2时极限加速比仅1.54倍，与实测数据高度吻合 3. 微架构资源配比失衡 - SM单元与后端单元(ROP/TMU)比例失调 - 例如RTX 4060 Ti(34SM)相比4060(24SM)： - SM增加42% - ROP仅从48增至64(+3 m3%) - 二级缓存维持32MB不变 4. 功耗墙与电压频率曲线 - 半导体工艺的电压-频率曲线呈现超线性关系 - 旗舰GPU在2.5GHz时功耗是2GHz的1.8^3≈5.8倍 - 导致实际运行频率低于理论最大值 5. 移动SoC的特殊限制 - 典型案例：M1 Ultra(64核) vs M1 Max(32核) - 统一内存架构面临总线争用问题 - 苹果实测带宽利用率：单芯片90% vs 双芯片封装75% 6. 图形API开销 - DX12/Vulkan的多线程调度存在Amdahl定律限制 - 驱动程序在8核以上CPU呈现边际效益递减 - 测试数据显示：16核CPU相比8核游戏性能提升<5% 7. 渲染管线堵塞点转移 - 不同分辨率下的瓶颈差异： | 分辨率 | 主要瓶颈 | 次要瓶颈 | |---|---|--| | 1080p | 顶点处理 | 像素填充 | | 4K | 纹理采样 | 显存带宽 | - 光追场景中BVH构建消耗40%以上算力且难以并行化 8. 半导体制造工艺限制 - 5nm工艺下晶体管密度提升80%，但互连RC延迟仅降低15% - 多芯片封装(MCM)的通信损耗： - Apple UltraFusion接口延迟增加20-30ns - NVLink带宽利用率约85% 9. 市场策略因素。 - 厂商人为设置性能梯度： - 通过驱动限制低端卡性能 - 显存位宽战略性阉割（如RTX 4060 Ti 128bit） - 性能定价非线性模型： | 价格比 | 性能比 | |---|--| | 1:1.5 | 1:1.3 | | 1:2 | 1:1.7 | 10. 光线追踪的次线性扩展 - BVH遍历存在顺序依赖 - 实测数据：每增加50%光追核心，性能提升约35% - 降噪算法占用30%算力且难以并行化技术演进方向： - 三星研发3D-TSV堆叠显存，目标实现2TB/s带宽 - AMD Infinity Cache技术将L3缓存提升至512MB - NVIDIA采用光追单元与SM解耦设计（Blackwell架构） - Intel研发Tile-based渲染的XeSS超分技术这些复杂因素的相互作用，导致GPU性能提升始终遵循「70%法则」——即规模每翻倍，实际性能提升约70%。这既是半导体物理规律的体现，也是商业与技术平衡的结果。

为啥大规模的gpu总是会有各种瓶颈而不符合百分比正比例提升？比如5090170sm对5080 84sm 200%的规模，150%的PT路径追踪游戏性能 3080 10g 68sm和3060ti g6x 38sm，178%的规模，135%的4K游戏性能 6950xt和6750xt，200%的规模，150%的2k游戏性能 4060ti 34sm和4060 24sm，142%的规模，115%的游戏性能 m1ultra 64.c和m1max 32c，m2ultra 76c和m2max 38c，200%的gpu规模，150%的游戏性能麒麟9000 5g 5nm SoC mc24和猎户座2100 mc14，170%的mali g78 gpu规模，100%的3dmark wle性能，115%的m3.1性能，136%的az2k a18pro和a18 4c，150%的gpu规模，106%的5g原神游戏性能，122% 123%的WiFi鸣潮和铁匹诺康尼游戏性能。 GPU性能无法随规模线性提升是一个复杂的技术问题，涉及硬件架构、软件优化、物理限制等多维度因素。以下是深度分析： 1. 显存带宽瓶颈 - 典型案例：RTX 3080(760GB/s) vs 3060 Ti(448GB/s)，带宽差距仅1.7倍 - 当计算单元(SM)增加200%时，显存带宽若仅提升50%，会形成数据供给缺口 - 现代GPU采用GDDR6X/GDDR7显存的功耗墙限制了带宽提升幅度 2. 并行效率天花板（阿姆达尔定律） - 游戏渲染存在30%以上不可并行代码（如场景加载、物理计算） - 理论公式：Speedup ≤ 1/((1-P)+P/N) - 当P=70%，N=2时极限加速比仅1.54倍，与实测数据高度吻合 3. 微架构资源配比失衡 - SM单元与后端单元(ROP/TMU)比例失调 - 例如RTX 4060 Ti(34SM)相比4060(24SM)： - SM增加42% - ROP仅从48增至64(+3 m3%) - 二级缓存维持32MB不变 4. 功耗墙与电压频率曲线 - 半导体工艺的电压-频率曲线呈现超线性关系 - 旗舰GPU在2.5GHz时功耗是2GHz的1.8^3≈5.8倍 - 导致实际运行频率低于理论最大值 5. 移动SoC的特殊限制 - 典型案例：M1 Ultra(64核) vs M1 Max(32核) - 统一内存架构面临总线争用问题 - 苹果实测带宽利用率：单芯片90% vs 双芯片封装75% 6. 图形API开销 - DX12/Vulkan的多线程调度存在Amdahl定律限制 - 驱动程序在8核以上CPU呈现边际效益递减 - 测试数据显示：16核CPU相比8核游戏性能提升<5% 7. 渲染管线堵塞点转移 - 不同分辨率下的瓶颈差异： | 分辨率 | 主要瓶颈 | 次要瓶颈 | |---|---|--| | 1080p | 顶点处理 | 像素填充 | | 4K | 纹理采样 | 显存带宽 | - 光追场景中BVH构建消耗40%以上算力且难以并行化 8. 半导体制造工艺限制 - 5nm工艺下晶体管密度提升80%，但互连RC延迟仅降低15% - 多芯片封装(MCM)的通信损耗： - Apple UltraFusion接口延迟增加20-30ns - NVLink带宽利用率约85% 9. 市场策略因素。 - 厂商人为设置性能梯度： - 通过驱动限制低端卡性能 - 显存位宽战略性阉割（如RTX 4060 Ti 128bit） - 性能定价非线性模型： | 价格比 | 性能比 | |---|--| | 1:1.5 | 1:1.3 | | 1:2 | 1:1.7 | 10. 光线追踪的次线性扩展 - BVH遍历存在顺序依赖 - 实测数据：每增加50%光追核心，性能提升约35% - 降噪算法占用30%算力且难以并行化技术演进方向： - 三星研发3D-TSV堆叠显存，目标实现2TB/s带宽 - AMD Infinity Cache技术将L3缓存提升至512MB - NVIDIA采用光追单元与SM解耦设计（Blackwell架构） - Intel研发Tile-based渲染的XeSS超分技术这些复杂因素的相互作用，导致GPU性能提升始终遵循「70%法则」——即规模每翻倍，实际性能提升约70%。这既是半导体物理规律的体现，也是商业与技术平衡的结果。

为啥大规模的gpu总是会有各种瓶颈而不符合百分比正比例提升？比如5090170sm对5080 84sm 200%的规模，150%的PT路径追踪游戏性能 3080 10g 68sm和3060ti g6x 38sm，178%的规模，135%的4K游戏性能 6950xt和6750xt，200%的规模，150%的2k游戏性能 4060ti 34sm和4060 24sm，142%的规模，115%的游戏性能 m1ultra 64.c和m1max 32c，m2ultra 76c和m2max 38c，200%的gpu规模，150%的游戏性能麒麟9000 5g 5nm SoC mc24和猎户座2100 mc14，170%的mali g78 gpu规模，100%的3dmark wle性能，115%的m3.1性能，136%的az2k a18pro和a18 4c，150%的gpu规模，106%的5g原神游戏性能，122% 123%的WiFi鸣潮和铁匹诺康尼游戏性能。 GPU性能无法随规模线性提升是一个复杂的技术问题，涉及硬件架构、软件优化、物理限制等多维度因素。以下是深度分析： 1. 显存带宽瓶颈 - 典型案例：RTX 3080(760GB/s) vs 3060 Ti(448GB/s)，带宽差距仅1.7倍 - 当计算单元(SM)增加200%时，显存带宽若仅提升50%，会形成数据供给缺口 - 现代GPU采用GDDR6X/GDDR7显存的功耗墙限制了带宽提升幅度 2. 并行效率天花板（阿姆达尔定律） - 游戏渲染存在30%以上不可并行代码（如场景加载、物理计算） - 理论公式：Speedup ≤ 1/((1-P)+P/N) - 当P=70%，N=2时极限加速比仅1.54倍，与实测数据高度吻合 3. 微架构资源配比失衡 - SM单元与后端单元(ROP/TMU)比例失调 - 例如RTX 4060 Ti(34SM)相比4060(24SM)： - SM增加42% - ROP仅从48增至64(+33%) - 二级缓存维持32MB不变 4. 功耗墙与电压频率曲线 - 半导体工艺的电压-频率曲线呈现超线性关系 - 旗舰GPU在2.5GHz时功耗是2GHz的1.8^3≈5.8倍 - 导致实际运行频率低于理论最大值 5. 移动SoC的特殊限制 - 典型案例：M1 Ultra(64核) vs M1 Max(32核) - 统一内存架构面临总线争用问题 - 苹果实测带宽利用率：单芯片90% vs 双芯片封装75% 6. 图形API开销 - DX12/Vulkan的多线程调度存在Amdahl定律限制 - 驱动程序在8核以上CPU呈现边际效益递减 - 测试数据显示：16核CPU相比8核游戏性能提升<5% 7. 渲染管线堵塞点转移 - 不同分辨率下的瓶颈差异： | 分辨率 | 主要瓶颈 | 次要瓶颈 | |---|---|--| | 1080p | 顶点处理 | 像素填充 | | 4K | 纹理采样 | 显存带宽 | - 光追场景中BVH构建消耗40%以上算力且难以并行化 8. 半导体制造工艺限制 - 5nm工艺下晶体管密度提升80%，但互连RC延迟仅降低15% - 多芯片封装(MCM)的通信损耗： - Apple UltraFusion接口延迟增加20-30ns - NVLink带宽利用率约85% 9. 市场策略因素。 - 厂商人为设置性能梯度： - 通过驱动限制低端卡性能 - 显存位宽战略性阉割（如RTX 4060 Ti 128bit） - 性能定价非线性模型： | 价格比 | 性能比 | |---|--| | 1:1.5 | 1:1.3 | | 1:2 | 1:1.7 | 10. 光线追踪的次线性扩展 - BVH遍历存在顺序依赖 - 实测数据：每增加50%光追核心，性能提升约35% - 降噪算法占用30%算力且难以并行化技术演进方向： - 三星研发3D-TSV堆叠显存，目标实现2TB/s带宽 - AMD Infinity Cache技术将L3缓存提升至512MB - NVIDIA采用光追单元与SM解耦设计（Blackwell架构） - Intel研发Tile-based渲染的XeSS超分技术这些复杂因素的相互作用，导致GPU性能提升始终遵循「70%法则」——即规模每翻倍，实际性能提升约70%。这既是半导体物理规律的体现，也是商业与技术平衡的结果。

AMD如果出个128CU的大核心，能不能跟5090掰掰手腕？ amd应该直接用两颗9070xt粘起来当旗舰卡，就像苹果m1ultra m2ultra那样，中间用if总线，2.5tb/s超高速互联，虽然是两个芯片，但是就当成一张显卡当做一个大核心统一Shader统一显存来调度 128cu 128mb 512bit gddr6 64gb，9090xtx，预计ts可以跑47000 48000 49000。两颗9070做次旗舰，112cu 128mb 512bit gddr6 64gb，9090xt，ts可以跑39000 41000，这样一颗芯片两种封装做4张卡，成本就控制得住。还有一张9080xt，96cu 96mb 384bit gddr6大核心，面积估计会来到540mm2 晶体管数量来到809亿晶体管一般来说不提升频率规模直接翻倍的话，性能提升在50%-60%。比如你把6900xt降频到5700xt的频率，那它也就比5700xt强50%多 60%的样子。也就是128cu 128mb 512bit，核心频率2900左右的9090xtx卡，性能比9070xt强60~70%（这就是苹果m1u m2u 究极融合ultrafusion的互联效率）。而5090直接比5080 强50%，5080起码比9070xt强接近20%，这么算说不定真快有5090 90%水平了。这是保证核心不严重降频，575w频率能跑到9070xt 305w水平的情况下当然还有一种方法96CU加上96mb L3再加上384bit 24G显存的配置 9080xt，面积大约在540mm²左右，还没有达到晶圆体效率的瓶颈。光栅性能可能会超过5080（+30%）超过4090 10%。再配合FSR4，这样看来，9080xt在部分场景下还是有一战之力的。再从跑分角度分析，假设64CU的显卡跑分为30000，5090的跑分为50000，那么128CU双芯究极融合的显卡如果效率能达到80%（虽然不太可能，感觉75%最多了），跑分可以达到48000，接近5090的水平。但问题在于，这种巨无霸芯片的成本可能会让A卡用户望而却步。毕竟，这种规模的芯片价格肯定不会便宜。

AMD这次要出个128CU的大核心，能不能跟5090掰掰手腕？ amd应该直接用两颗9070xt粘起来当旗舰卡，就像苹果m1ultra m2ultra那样，中间用if总线，2.5tb/s超高速互联，虽然是两个芯片，但是就当成一张显卡当做一个大核心统一Shader统一显存来调度 128cu 128mb 512bit gddr6 64gb，9090xtx 两颗9070做次旗舰，108cu 128mb 512bit gddr6 64gb，9090xt，这样一颗芯片两种封装做4张卡，成本就控制得住。一般来说不提升频率规模直接翻倍的话，性能提升在50%-60%。比如你把6900xt降频到5700xt的频率，那它也就比5700xt强50%多 60%的样子。也就是128cu 128mb 512bit，核心频率2900左右的9090xtx卡，性能比9070xt强60~70%（这就是苹果m1u m2u 究极融合ultrafusion的互联效率）。而5090直接比5080 强50%，5080起码比9070xt强接近20%，这么算说不定真快有5090 90%水平了。这是保证核心不严重降频，575w频率能跑到9070xt 305w水平的情况下当然还有一种方法96CU加上96mb L3再加上384bit 24G显存的配置 9080xt，面积大约在600mm²左右，还没有达到晶圆体效率的瓶颈。光栅性能可能会超过5080（+3 m0%）超过4090 5%。再配合FSR4，这样看来，9080xt在部分场景下还是有一战之力的。再从跑分角度分析，假设64CU的显卡跑分为30000，5090的跑分为50000，那么128CU双芯究极融合的显卡如果效率能达到80%，跑分可以达到48000，接近5090的水平。但问题在于，这种巨无霸芯片的成本可能会让A卡用户望而却步。毕竟，这种规模的芯片价格肯定不会便宜。

AMD这次要出个128CU的大核心，能跟5090掰掰手腕？ amd应该直接用两颗9070xt粘起来当旗舰卡，就像苹果m1ultra m2ultra那样，中间用if总线，2.5tb/s超高速互联，虽然是两个芯片，但是就当成一张显卡当做一个大核心统一Shader统一显存来调度 128cu 128mb 512bit gddr6 64gb，9090xtx 两颗9070做次旗舰，108cu 128mb 512bit gddr6 64gb，9090xt，这样一颗芯片两种封装做4张卡，成本就控制得住。一般来说不提升频率规模直接翻倍的话，性能提升在50%-60%。比如你把6900xt降频到5700xt的频率，那它也就比5700xt强50%多 60%的样子。也就是128cu 128mb 512bit，核心频率2900左右的9090xtx卡，性能比9070xt强60~70%（这就是苹果m1u m2u 究极融合ultrafusion的互联效率）。而5090直接比5080 强50%，5080起码比9070xt强接近20%，这么算说不定真快有5090 90%水平了。这是保证核心不严重降频，575w频率能跑到9070xt 305w水平的情况下当然还有一种方法96CU加上96mb L3再加上384bit 24G显存的配置 9080xt，面积大约在600mm²左右，还没有达到晶圆体效率的瓶颈。光栅性能可能会超过5080（+30%）超过4090 5%。再配合FSR4，这样看来，9080xt在部分场景下还是有一战之力的。再从跑分角度分析，假设64CU的显卡跑分为30000，5090的跑分为50000，那么128CU双芯究极融合的显卡如果效率能达到80%（虽然不太可能，感觉75%最多了），跑分可以达到48000，接近5090的水平。但问题在于，这种巨无霸芯片的成本可能会让A卡用户望而却步。毕竟，这种规模的芯片价格肯定不会便宜。

确实ddr4真的不行了如图我上并夕夕看了的 ddr5 6000多c26 c28 c30 c32 c34 甚至ddr5 8000c38 16g×2也只要6七八百然后ddr4 4000c15 皇家戟二手的都要卖六七八百毫无性价比可言啊，都是相同的容量，类似的性能，居然没有便宜一半当然600块就能买到64g的32g两条 ddr4 3200c18 但是性能太差了，根本不值得3200c19的或者3733c14的用户去更换 ddr4好性能表现的太贵，平庸性能表现的确实便宜，烂大街了感觉d4偏商务，d5偏运动

难怪amd不肯下放fsr4 【太长不看版，结论就是，9070xt的RDNA4架构在ai和光追性能都有4080 ada架构同水平了，就是个小4080然后原价4999，4080原价9499】。首先来看RDNA4 RX9000显卡的ppt 每个计算单元每cu的稀疏int8的性能最高翻8倍（只强调了每个单元，没强调同频率） rx9070xt 64cu 3.1ghz可达1557tf int8 所以上一代RDNA3 7800xt 60cu 2.7ghz应182tf左右int 8（因为少了4cu所以下降了12tf）可供参考的ps5pro是60cu RDNA 2.X 300tf int8（RDNA 2.X 混合架构，包含接近RDNA 4的ai和光追性能，但是没有RDNA 3的双发射fp32，也没有RDNA3的chiplet芯粒设计）新的硬件支持fp8格式 4倍稀疏fp16 那就是八倍稀疏fp8 78xt是40t fp32 ， 80t fp16，80t fp8，180t int8 79xtx是60t fp32，120t fp16，120t fp8，270t int8（当然这个不一定准，毕竟有人实测观测到了103tf的7900xtx int8 fp8成绩）那9070xt就是50t fp32 ，稀疏后320t fp16，640t fp8，1557t int8 作为参照，4070s是557t fp8 79xtx用1.5倍9070xt的cu计算单元实现了38%的fp8，42%的int8

nv和amd都在追fp/int 8/4为啥苹果不追呢 nv和amd都在追fp8 fp4，int 8 int4 nv 5070ti ai 1408tf fp4，43tf fp32 amd 9070xt 1557tf int8，50tf fp32 苹果a17pro a18都是35tf fp16 npu 只要硬件支持fp8 fp4 int8 int4，npu算力就可以来到70tf 140tf 为啥苹果不追呢

难怪amd不肯下放fsr4 首先来看RDNA4 RX9000显卡的ppt 每个计算单元每cu的稀疏int8的性能最高翻8倍（只强调了每个单元，没强调同频率） rx9070xt 64cu 3.1ghz可达1557tf int8 所以上一代RDNA3 7800xt 60cu 2.7ghz应182tf左右int 8（因为少了4cu所以下降了12tf）可供参考的ps5pro是60cu RDNA 2.X 300tf int8（RDNA 2.X 混合架构，包含接近RDNA 4的ai和光追性能，但是没有RDNA 3的双发射fp32，也没有RDNA3的chiplet芯粒设计）新的硬件支持fp8格式 4倍稀疏fp16 那就是八倍稀疏fp8 78xt是40t fp32 ， 80t fp16，80t fp8，180t int8 79xtx是60t fp32，120t fp16，120t fp8，270t int8（当然这个不一定准，毕竟有人实测观测到了103tf的7900xtx int8 fp8成绩）那9070xt就是50t fp32 ，稀疏后320t fp16，640t fp8，1557t int8 作为参照，4070s是557t fp8 79xtx用1.5倍9070xt的cu计算单元实现了38%的fp8，42%的int8

电脑真是越来越夕阳产业越来越黄昏了 5年过去了公标原价6299的5070ti比2020年发布的原价5499的3080 10g跑4k原生游戏性能提升也就50%多价格还涨了800 平均下来每年提升也就10% nv那边也是公标原价4999的9070xt比原价5099的6800xt跑4k原生30款游戏平均性能提升也就51% 每年提升10% 相反移动端手机上今年是30%，去年是50%，再往前走是20%，每年都有大提升

拼好帧之后显卡性能可能的下一步提升方向，注视点渲染众所周知，人眼肉眼只有瞳孔2~10度的视场角才有最高的分辨率 4k甚至8k（想象一下眼睛中间的焦点，瞳孔最中心的点，那么小一块区域就那么多感光细胞），人眼余光分辨率极低，480p都不到既然顶级显卡5090 5080的笔记本都这么贵了那完全可以买笔记本的时候笔记本就内置3d红外结构光 + 3d tof深感摄像头 + 双目视差，红外去锁定双眼的焦点，然后算法去结合屏幕尺寸分辨率和ppi，配合dlss和 DX 12 Ultra的VRS 双眼注视的地方就严格1x1渲染 DLAA 双眼注视不到的地方就4x4渲染，先偷一波分辨率变成1080p，然后再dlss性能甚至超级性能，反正你眼睛都没在看的地方，眼睛的余光分辨率是很低的

拼好帧之后显卡性能可能的下一步提升方向，注视点渲染众所周知，人眼肉眼只有瞳孔2~10度的视场角才有最高的分辨率 4k甚至8k（想象一下眼睛中间的焦点，瞳孔最中心的点，那么小一块区域就那么多感光细胞），人眼余光分辨率极低，480p都不到既然顶级显卡5090D 5080都这么贵了那完全可以买显卡的时候再搞个套餐送一个眼动仪 3d红外结构光 + 3d tof深感摄像头 + 双目视差，红外去锁定双眼的焦点，然后算法去结合屏幕尺寸分辨率和ppi，配合dlss和 DX 12 Ultra的VRS 双眼注视的地方就严格1x1渲染 DLAA 双眼注视不到的地方就4x4渲染，先偷一波分辨率变成1080p，然后再dlss性能甚至超级性能，反正你眼睛都没在看的地方，眼睛的余光分辨率是很低的

手机GPU到高端桌面GPU，频率与带宽对性能的影响 RDNA3架构性能解析：从6WGP到20WGP，频率与带宽对性能的影响 —— 手机GPU到高端桌面GPU，SNL与TS跑分对比 RDNA3 6wgp 12cu 1.1ghz 手机内存带宽约68gb/s snl 1800分 8wgp 16cu hx370内存带宽约120 130gb/s 2.9g ts3700 snl 3500 2.2g ts3500 snl 3300 频率提升32% 性能提升6% 8wgp 16cu 2.8ghz 8040s有32mb if L3 所以在内存带宽不变的情况下 2.8g ts可以来到4800，比hx370提升30% 20wgp 40cu 2.4ghz 内存带宽约273gb/s 8060s有32mb无尽缓存 ts 10300 8e就是因为GPU有12mb L2节省了大于40%的带宽所以才能做到带宽对比上代8g3提升12%（9600对8533），snl跑2600提升50% 4060ti 128bit gddr6 288gb/s就是因为有32mb L2节省了50%的带宽，所以4k游戏性能和上一代半代升级的3060ti g6x 256bit 608gb/s不分伯仲 4070s 192bit g6x对比 3090 384bit g6x也是，一个500gb/s，一个1tb/s，全靠48mb L2 6900xt 504g/s对比3080 12g 900g/s也是，多亏了128mb L3 if缓存目前阻碍苹果gpu上高频的就是带宽了像高通和NV那样gpu给个超大规模的L2或者像amd那样给个l3就行了这样就可以让桌面mac GPU频率放开跑，细调电压优化架构之后跑个2.2g 2.4g 2.9g m5这么干就可以在gpu规模不变的情况下对比m4直接图形性能翻倍当然代价是gpu至少配一个16mb IF L3或者24mb L2 而且像高通nv那样也不妨碍slc继续保持8mb

xe2感觉完全有可能snl 7000~8000啊很简单的事，超频就完了 8g2超频xe1，都是1536alu，从8g2的Adreno740 680mhz超频到Adreno X1 也就是Adreno741 1.5ghz 2.2x的频率所以snl性能从1137上涨到了2546（极客湾） xe2模仿一遍就行而且内存也从xe1的128bit升级到了192bit 所以xe2完全可以加规格 Adreno X2升级到2048alu 2.4ghz snl 7~8000 架构稍微优化一下对比8e Adreno830 1536alu 1.1g snl 2600 snl跑个8000完全可以高频gpu就是降本增效的不二之选 intel amd nvidia都干了 mtk d9400 arm mali g925也是都跑到1.6g了

9070XT说不定真能打打7900XTX 5070TI 反对9070XT跑到4K去欺负79GRE算不得好汉难绷，我据理力争，但依旧被破防楼主拉黑了逼我单开一个帖子。直接说结论吧。结论就是不能纯看带宽，不能忽略缓存体系的改变还有原楼主双标玩的挺溜。 9070xt 640gb/s的带宽就是跑到4K去欺负带宽只有576GB的7900GRE，算不得好汉。 7900xt 800g带宽就是4K必秒9070xt 640g。又见到一个唯带宽论的。反例我现在都能举三个。既然带宽这么重要，直接决定4K性能，800g带宽的79xt必定吊打秒杀9070xt 640g吧。那么带宽608g的3060ti g6x一定可以在4k游戏中，性能领先帧数高于448g的4070吧。 AMD Radeon VII有1tb的带宽，当年一定能干翻448g 1080ti吧。 3080笔记本有448g带宽，4080笔记本只有可怜的384g，那3080笔记本肯定4k游戏性能更强吧满脑子只有显存带宽，看不得缓存是这样的。。。 nv官网里面有个页面就写着40系缓存的秘密堆料大量的L2（或者L3）都有助于显著降低显存访问率，增加缓存命中率实现512g的69xt（128mb无尽缓存）对标1t的3090 实现4050m（32mb L2）虽然只有192g带宽但是游戏性能仍然不逊色于3060m 336g（3mb L2）实现4060ti 128bit 288g（32mb L2） 4k下不逊色于608g带宽的3060ti g6x 256bit（4mb L2） amd早在RDNA2 3架构的时候就请了zen团队的人来帮忙 RDNA2用大容量无尽缓存实现了等效带宽2.7x 让69xt虽然只有512g的显存带宽，但实际游戏等效带宽高达1.6t（而且这个缓存是直接即用的，都不需要游戏开发者调用专门的api来优化） nv也知道这项技术才是未来，所以在两年后才匆忙跟进让4060ti虽然只有288g/s的显存带宽但是等效带宽有448g甚至608g 图8是知乎大佬的测试Edison Chen 大佬实测出来GeForce RTX 5070 Ti 的访存性能非常强，凭借 256-bit GDDR7 28 GT/s，达到了 861 GiB/s 的的实测带宽，是 GeForce RTX 4070 Ti 486 GiB/s 的 1.8 倍，也比 GeForce RTX 4080 FE 快 27%。但是，5070ti只有96 rops ，4080都有112个 fp32通用算力也不如4080 纹理填充率也不如所以底层算力都瓶颈了配合更快的带宽，也只能游戏勉强打平4080s

我发现win on arm pc有一条出路，硬件转译指令集？可问题是可能会被卡x86专利？首先从技术演进、商业逻辑和未来趋势三个维度展开分析：一、指令集与微架构的解耦革命 1. CISC到RISC的哲学转变现代x86处理器本质上已演化为"RISC核心+CISC前端"的混合架构。Intel自P6架构（1995年Pentium Pro）引入的微指令（μops）转换机制，将复杂指令分解为RISC-like微操作，这种设计使x86在保持兼容性的同时获得了RISC架构的执行效率。数据显示，现代x86指令解码器可将约75%的CISC指令拆解为1-4个μops。 2.转译层的架构价值 - 前端解码器：专用硬件电路负责指令转译，约占芯片面积的15%（Intel Sunny Cove数据） - 微码ROM：存储复杂指令的微程序，容量通常为16-64KB - 预测执行单元：通过分支预测和乱序执行弥补转译延迟 3. 能效拐点的突破 AMD Zen4架构的每瓦性能比初代Zen提升达3.8倍，证明现代微架构技术已能有效补偿转译开销。这解释了为何原生RISC架构（如ARM）的能效优势在桌面领域被逐渐消解。二、历史案例的技术重审 1. 全美达的VLIW实验其Crusoe处理器采用代码变形（Code Morphing）技术，但动态二进制翻译导致： - 平均20-30%的性能损耗（SPEC2000测试） - 复杂分支预测失误率比同期Pentium III高40% - 热设计功耗仅5-7W的优势被性能差距抵消 2. IBM PowerPC的启示 1995年推出的PowerPC 615原型芯片展示了双指令集兼容可行性： - 通过微码层实现x86指令转译 - 但商业考量（维护Power架构溢价）导致项目终止 - 技术遗产体现在现代Power10处理器的混合执行引擎三、ARM PC的硬件转译可行性 1. 技术实现路径 - 专用解码单元：需增加约5-7%的芯片面积（基于ARM Cortex-X3估算） - 内存模型适配：x86的TSO内存模型与ARM的弱内存模型需硬件级同步 - 扩展寄存器映射：通过影子寄存器实现x86的MMX/SSE扩展 2. 性能模拟推算假设采用： - 4-wide解码前端（类似Apple M2） - 硬件辅助预测分支表（HAPT） - 微指令缓存（μCache）预计可实现： - 85-90%的原生指令覆盖 - 平均转译延迟<3个时钟周期 - 整体性能损失控制在15%以内 3. 商业生态挑战 - 专利壁垒：x86指令集的复杂专利网（Intel持有1000+相关专利） - 软件验证：需通过微软WHCP认证的严格兼容性测试 - 市场窗口：2023年x86仍占桌面市场82%份额（Mercury Research）四、未来架构演进趋势 1. 异构计算范式 AMD XDNA、Intel Movidius VPU等专用加速器的兴起，正在重构指令集的价值定位。计算任务逐渐向领域特定架构（DSA）迁移，通用指令集的重要性相对下降。 2. RISC-V的启示开源指令集的崛起证明，现代微架构技术已能实现： - 单核支持多ISA（如RISC-V + 扩展指令） - 动态重配置执行单元（DARPA ERI项目成果） - 量子-经典混合指令集（IBM Qiskit Runtime） 3. 三维集成技术基于Foveros、3D V-Cache等先进封装，未来可能实现： - 独立ISA处理单元的垂直堆叠 - 按需激活的指令集硬件层 - 光互连总线打破传统架构边界五、战略建议 1. 差异化路径选择 - 消费端：优先转译MMX/SSE等媒体指令（覆盖90%消费应用） - 企业端：专注AVX-512等计算密集型指令的硬件加速 2. 生态构建策略 - 与Valve合作优化Proton兼容层 - 建立x86二进制签名认证体系 - 开发混合调试工具链（ARM/x86双符号支持） 3. 专利规避设计 - 采用动态微码生成技术（避免静态实现专利） - 开发基于机器学习的指令预测算法 - 创新内存屏障实现方式（规避TSO相关专利）当前技术条件下，ARM PC通过硬件转译实现x86兼容在技术层面已具备可行性，但需要突破： - 纳米级工艺带来的晶体管成本优势（5nm以下节点） - 先进封装技术降低异构集成成本 - 开源运动对传统指令集生态的瓦解速度这场架构革命的决胜点不在实验室，而在软件开发者生态的迁移成本与终端用户的体验阈值。历史经验表明，当转译性能损失控制在20%以内、兼容性覆盖超过95%的主流应用时，市场格局就可能发生根本性转变。Arm架构正站在这个临界点上，而硬件转译技术将成为破局的关键支点。

高通X Elite为何全砍小核？8+16不香吗？就连苹果m系列和intel ultra200v，amd ai9 hx370也没有完全砍掉小核心主流的两三家都是这样那高通x elite为什么要完全砍掉小核心呢弄个8+12，8+16不香吗 8p Oryon L 24mb L2 + 16e Oryon M 16mb L2 24核心24线程正好也是有一个CLUSTER离的比较远 #骁龙新处理器笔记本热议#

5080就是5060，再往下走尚不能称之为rtx50 5080 GB203是202的5090 50%面积 GB203 5080 ≈ AD103 4080 ≤ TU106 2060 TU106 2060是102 2080ti的60%面积 5080定位上来说还不如2060 2080ti首发999~1199刀（10999），2060首发349刀 5090首发1999刀（16499），5080首发999刀老黄现在不愧是半导体产业第一精算师能把60级显卡给个80的名字，然后卖到80ti的价