tonggongzi tonggongzi
关注数: 29 粉丝数: 758 发帖数: 26,245 关注贴吧数: 7
谈谈“流式显存”对PC硬件发起的挑战 吹嘘SSD的PS5就要正式发布演示了,某图形硬件行业大佬将面临地位的危机和挑战 白嫖王linus 拿了一块30G/s的SSD去对比 PS5的 SSD, 最终发现不是那么一回事,专门做了一期道歉视频 人们总是以为数字大就是好, 数字小就是差简单来说就是我们以为SSD往显存里面传数据是一个复杂粘贴的过程, SSD 有5G/s速度1秒就能往显存里面传5G, 有30G/s速度就能传30G 这就是一个错误,在PC平台上,无论你的SSD有多块,达到1G/s速度的时候八核CPU很可能已经爆了 大概这也就是传说中的星际公民,就算把游戏放到内存,也还是悲剧速度的原因。 因为这不是复制粘贴 而是下面这样的,需要把原图切块,缩放,然后再拼接这个工作一直都是交给CPU来完成,因为过去对显存的读入要求不高,都是按HDD硬盘来设计,所以大家都没有感觉到速度不够, 而当这个工作量突然提升了10倍,50倍,甚至100倍的时候,CPU就无能为力了。 这也是很多人吐槽的 ---用了500m/s的SSD游戏加载变快 ---用了3000m/s的SSD加载却没有快上6倍,甚至可能和上者一样,因为CPU已经极限了, Loading的加载过程,就是一个往显存里面加载纹理材质的过程 举例来说更像是仓库发货8个CPU再怎么强也还是8个人,8个人能打一个房间的包就极限了主机干脆直接定制一个IO处理器, 用来绕过CPU,专门干打包这活,别的都不用 这个IO相当于有十几个 八核CPU的效率, 也就相当于是请了100个打包工人做出了这样的代价,在北桥定制ASIC(如果你不懂可以把它想象成蚂蚁矿机,专门挖矿的那种效率) 才实现了8-9G(最高22G)/s的显存传输速度 PS5的SSD就是一块普普通通的硬盘, 而这个硬盘的IO对应的芯片,是一个相当于十几个CPU级别的“蚂蚁矿机”,这才是核心之处。 PC在没有建立这个“打包仓库”的情况下,是永远无法实现同样效果的,除非用上几十核心的产品。 等到下一代产品才有可能, 并且需要AMD Intel和微软一起合作实现,因为IO只能装在CPU的北桥才行,软件和驱动需要windows才能开放通道。
PS5定制的 SSD IO和性能详解 实际上马克都已经说了”用于内存映射”,装不知道的就别老是凑热闹了 先来说一下PC上的SSD 过去PC上的nvme PCIe3.0 x 4 通道硬盘,带宽实际只有4G/s,这只是理论值 所以大家看到多数SSD的速度只有2.5G/s极速,最强的也不过3.5G/s 也就是说实际硬盘速度是取决于PCIe通道的速度而不是SSD本身 而最新的主板可以支持PCIe4.0 x 4 硬盘,带宽翻倍变成了8G/s 对应的硬盘也就变成了5G/s - 7G/s极速 然而你以为7G/s就够快了,不,还有办法提速,简单来说就是IO定制压缩,在SSD上”压缩文件“ 接下来通过PCIe4.0 x4的 8G/s通道把这个压缩数据传输到IO芯片(相当于北桥芯片) 再通过一个定制解压芯片来解压,这样还原出原来的文件就远远超过8G/s速度 也就是说其实决定速度上限的是这个“压缩”的比例,而不是硬盘本身 显存中用的都是材质纹理贴图这类大文件,压缩比例也特别高,算法也千奇百怪,少说1.5倍多的4-5倍 所以给出的9G/s速度应该才是一个很低的基础值,而最高值也有提到是22G/s, 也就是相当于压缩了4倍 9-22G/s的速度 看起来好像还是和内存差别有几倍, 但是也得考虑一件事,内存也是得通过PCIE3.0x16(显卡插槽) 才能把数据传给显存, 这个PCIE的速度也只有16G/s, 管你用的是多贵多强的内存,最终还是得走显卡插槽,甚至有些人显卡只能插在8G/s的PCIE上,不是更差? 还真不如9-22G/s的速度这只是玩笑话,实际就是说,这速度当"虚拟显存""虚拟缓冲"绰绰有余 这次反而是主机带动PC升级 这个“压缩芯片”的算力不是CPU能比的,大约相当于9个zen2的解压速度,有知道ASIC原理的都明白 所以PC想用一块pcie4.0 x 4的硬盘达到同样效果基本无望,最后只能效仿双通道内存搞两块 因为北桥上没有压缩芯片实现不了这么夸张的数据压缩, 只能靠暴力堆速度x2来弥补,未来PC玩3A移植游戏基本得2块硬盘raid0用起
完美重玩生化4,靠各路攻略解决了当年的遗憾 当年懵懵懂懂地通关,过不了的就直接火箭筒,留下很多遗憾 看了部分云攻略视频后大悟,首先个人用了快捷连发来按QTE,否则60帧没法玩 然后下载了视野FOV补丁,可以看到更大的视野和全景,里昂在屏幕中心而不是侧面,操控和瞄准能力大幅提升 介绍下几个难点的攻略 村长--- 才知道这家伙怕火焰弹,准备4颗火焰弹加2颗闪光弹就无伤过了,还有油桶炸一下 双瞎子--- 使用地雷枪打小兵可以只引出一个,然后麦林两枪击杀,反正后面打右手前要凹子弹。 右手--- 到这里时一定能捡到8发麦林,3发在开枪打“画像酒瓶”那里,5发就在掉落的陷阱内,加上升级弹夹凹的8发, 一共16发,升级威力20,足够杀死右手 右手大约320左右的生命值,每次冰冻后踢一脚都能连打5发麦林,只要确保3次能打中15枪就完事,就算漏两三枪还能再冰冻一次用其他武器解决 双巨人--- 一次杀死巨人的方法,就是倒地时立刻两发地雷枪打在寄生虫上,然后上去砍8刀,之后地雷枪刚好爆炸,一回合就解决,地雷枪不用升级,因为升级威力的地方实际是爆炸范围,其实升级偶尔打小兵也有奇效 麦林打完右手凹10发子弹,路上绝对可以捡到2个手雷,还有1个闪光在boss场景 先丢2颗手雷然后丢闪光,对一个巨人打5发麦林倒地,马上2发地雷枪+八刀杀死一个,接下来再来5发麦林又能倒一个 堡主--- 拉栓步枪威力可以升到30,8发子弹就能送他上路,并且只需要一枪打眼睛就能硬直,比连狙好用多了 U3--- 麦林12发打完虫子头部,打人头反而效果差,然后丢1颗火焰弹它就开始钻地,之后3颗火焰弹加2油桶结束战斗 之后可以升级终极版又凹完子弹 克劳萨--- 由于“连发QTE”和刀键相同,直接用QTE键去刀他,基本无伤就过了
次世代显卡没有提供SSD接口最好观望 虽然PS5吹SSD被当成某种笑话 但是原理上来说高速SSD就是用来弥补显存容量过小的缺陷的 没错,是因为16G显存太小了 为什么,平方会算吧,贴图宽度2倍,那么贴图面积就是4倍 也就是说下代游戏是以上代主机“8G”容量的4倍标准来开发,按理来说得上个32G显存,不过目前显存这价格买不起 高速SSD的作用就是当显存的虚拟显存凑合着用的。 举例,一个场景,假设屏幕的视野为120度,也就是占全场景360度的三分之一 屏幕视野消耗了12G的显存, 视野侧面被面看不到的部分就消耗24G,全场景一共36G显存, 整个36G显存都放在SSD上,然后显存只读取三分之一,根据视角方向的改变而不停修正。 这36G虚拟SSD显存传输到真显存上也只需6秒,只要你不是6秒内原地转了一个圈,就不会露陷出现马赛克贴图或者场景消失的情况。 其实如果利用色彩压缩特性传输更快,远远低于6秒。 明年PC怎么应对次世代游戏移植这种情况? 设想16-32G显卡普及,几率渺茫,就算有16G还是太小。 PC想交换显存的话得通过内存,多了一道工序。 而主机用的SSD已经占了PCIE8x的速度, 想想已经是显卡16x的一半了 1.PCIE4x硬盘,没有的就不用下游戏了,要么只能开中低材质还有频繁空场景加载的风险。 2.可以拿内存代替硬盘缓冲但容量不能少,估计32G起 3.显卡上有专业卡的SSD接口,可以提供额外缓存,不过最好是双接口可以支持raid0,否则效果可能一般 其实只有最后一个实现方案是最靠谱的
噩梦难度RE3图文攻略指南(持续更新) 目前S评价毫无价值,这大概也是没有S+的原因,生化危机敌人很少,道具规划本来就是核心玩法,无限道具和硬币加成算是快速毁灭了游戏性,期望大家腻的快都去玩抵抗,官方估计就是这样想的。 不过“白板”体验才是真正的游戏,不用太高的操作技巧,收刮补给,计划每一颗子弹的使用才是游戏最大的乐趣 噩梦难度和地狱难度其实相当于生化2的新游戏+ 刚出地铁就能拿到一个包和麦林枪,但是敌人配置有变化 追踪者血量翻倍,需要2雷或者2油桶才能掉箱子,但是个人感觉小怪血量反而降低了 地狱难度下追踪者速度估计快了一倍,而且出手就是死,几乎没有容错,完全不是噩梦能比的 如果按10分给各个难度一个评分 辅助为1分 普通为2分 专家为5分 噩梦为6分 地狱为20分,追踪者速度比噩梦快差不多一倍,多数情况下一击毙命,只适合核心玩家无伤通关 当时第一次打噩梦用了几个硬币,尤其是攻击加成,丧尸2枪倒,比辅助还垃圾,完全无游戏体验,除了最终boss有点强有印象 不过白板通关地狱再重新玩噩梦,也更容易整理出一些技巧噩梦难度下追踪者血比专家厚,但是丧尸血反而比专家难度少 噩梦难度一发火焰弹可以烧死猎杀者r, 专家难度需要补一发散弹 某些地方敌人配置改变或许比专家模式更简单
PS5应该设法重回移动市场 如果说主机以客厅电视娱乐为目标, 但是,这个时代每个人都随身携带一台电视(手机),为什么不以人口袋里的电视为目标呢 以掌机为原型,只有手机卡槽便携手柄,设备做成大容量充电宝的大小,没有显示屏,通过有线连接或者wifi串流,直接以手机作为显示平台,还能开发VR显示器兼容,真正的移动VR。 将设备的CPU性能降低2倍,GPU降低5倍,再配合特制信仰散热小包,可随身携带 按现在的技术,做到1.8G, 2.5T浮点,4G显存+4G内存,轻薄笔记本级别散热,(没有键盘,没有显示屏的轻薄笔记本能有多大?)持续运行3小时即可,无论哪个角度都超过了PS4的水平,足以运行碾压目前所有移动端设备游戏的画质。 要知道轻薄笔记本都有1.5T浮点,只是没有显存导致无法支持高特效游戏远远达不到1.5T的性能。 设备本身也可以在客厅电视上外接使用,甚至可以接笔记本使用,提供了各种可能性,包括懒人的躺游模式。 让游戏开放商提供特制的PS5游戏的低分辨率低特效模式,比如只运行0.5k分辨率, 使得游戏和主机内容完全一致,提供开发环境利用价值,可以绑定PS5, 游戏共享, 存档共享,云游戏等 499或许只能卖一台12T浮点的主机 但是这样低廉的移动设备却能卖出更高的价格,599刀都能带来一个更大的市场空间,统一的规格也能同时吸引更多开发商开发中级性能的游戏。
其实浮点还真和性能匹配的,新主机已经没有优化空间了 微软说的很直白,浮点提升就2倍,性能2倍,不扯其他的东西,也不扯新架构。 旧xbox主机采用的amd GCN架构,2560sp, 频率1.2, 浮点为6T 新xbox主机RDNA架构,估计为3328sp, 频率1.8, 浮点12T 通俗点说 旧主机GCN架构分成很多小模块, 每个模块包含64个sp,然后一个周期进行64个单元计算 然后就有一个问题: 1.如果一次计算只有20量,那么这64个单元就会有44个单元空载浪费了。 2.如果一次计算用了65量,更严重,剩下的1次计算还得浪费一个模块周期。 这样很多计算单元就白白空载浪费了,6T往往只有5T在计算,甚至更低。 在PC市场上,竞争对手Nvidia使用的是自适应分配单元模式但是成本更高,对手的GPU如果有5T浮点,就能发挥出5T的计算性能,而AMD如果有6T,实际由很多单元空载,只有4.5-5T的效果,并且需要不断驱动优化来提升性能。 所谓的优化,就是通过驱动或者设置参数对图形计算的进行重新分配,使得每一次的计算量都是16或者64个并发为准,这样就不会出现空载。 PC市场上这个弱点也会直接被竞争对手针对,对方会不断推广一些非固定量计算的“特效”让其效率低下 但对于主机来说,软件优化和设置无需考虑太多就可以避免缺陷,开放商不会自找没趣地在主机上使用不利的特效和参数,最终6T利用率也达到100%,主机画质也不差几倍性能的显卡就是这个原因。 而新主机的RDNA架构,最大的区别就是把模块变成了32sp,并且进行更智能的分配, 降低了空载可能性,甚至追平了拥有“整数分离模块”的竞争对手显卡, 但也说明效率在出厂时已经最大化。 但某种意义上来说,新的主机已经没有优化空间。 不过也不用担心,未来的游戏”优化“会采用“软设计”方式来解决,利用功能来解决性能: 交错,棋盘渲染, 动态分辨率, 分块细节降低,智能缩放,瞳孔追踪等这些都能大幅降低游戏的计算量 通过牺牲不必要的画质来提高中心的核心画质,毕竟人所看到的只有视野的中心 这并不是说把画质缩水了,而是一种提高画质的方案,因为省下来的计算量最终还是得用到画质上去的
关于苏妈的重新定义4K, HBM或许再次降临桌面 第一次 FuryX 28nm时代强行拼凑出GCN最大规模4096sp, 相当于初代HD7970的两倍,性能最终也仅仅是两倍 4颗显存实现512G/s带宽,而同期6G GDDR5最高仅为336G/s, 遗憾的是4颗HBM容量只有4G导致了严重短板 ------面对NV九代麦克斯韦架构提频降功耗和显存压缩大幅提升完全无力,只能勉强打平公版980ti,但是对方甚至还保留了20%-30%的超频能力 第二次 Vega64 同样FuryX的规格,这次仅仅用2颗HBM显存就达到了400-480G的带宽 实际性能的提升仅仅来自于频率的提升,而憋足了劲也只有50%,实际一代制成追赶50%的频率已经非常可观了 ------成本太高,发行太晚,传说中能大幅提升性能的流式光栅没有开启,或者说是设计失败了,没有完工,最终变成了只能和廉价10系过招的产品 第三次 Vega VII 还是同样4096sp, 只是芯片缩小增加了双精度,居然强行搭载了4颗HBM2显存,带宽也高达1.2T, 事实上大家都明白就算减半600G/s也绰绰有余,原因大概就为了计算卡市场强行凑出32G的容量。 ------相比Vega没有太大的提升,显存容量和带宽都远远过剩,但是这样一个小芯片也仅仅是一个超冒烟的vega,芯片价值大概连游戏主机都不如, 成本全花在焊显存上了,一个时代的先烈。 第四次 ?? 对于5700xt两倍以上性能,那么毫无疑问就得提供两倍于5700xt的带宽,否则只会面临瓶颈 而GDDR6频率也很难有更大的提升,现在GD6实际已经是功耗巨高强行提频 强行堆到512bit的确可以实现900-1000G/s级别的带宽,但是设计难度和维护几率就会大幅上升, 虽然历史上不是没有过。(实际上1024bit都能做出来) 而目前HBM2e的公布,单颗容量高达16G, 带宽达到410G/s, 也就是说2颗32G就能超过到12G 384bit G6的水平, 而4颗达到1600T/s带宽,这就是GDDR6远远不可比拟的情况了 当然也只是计算卡之余留给桌面的附带产物
官方四大战役强化mods x2 新年整合发布 对之前发布的4个双倍压力强化战役mods进行了整合,并且删掉了奇怪的挡路大门 简单说明下双倍修正和官方原版的不同: 主要就是让敌人的防守和进攻数量非常猛烈,但我方也拥有充裕的战斗力可以轻松应对,并且因为是双倍生命值,所有我方不太容易战损,集结部队更容易。 我方单位生命值两倍,全科技双倍强化+黑科技补充,多数黑科技类似于合作模式。 所有战役敌人生命值两倍,地图上三倍防守兵力, 两倍=>四倍进攻兵力。 人族战役=> 所有单位直接空投进入战场,雇佣兵5分钟刷新无上限,地图资源总量3倍,采气效率提升 初始关卡就拥有全部单位和科技,研发科技后达到两倍强化 D键实现自动甩枪兵走A 虫族战役=> 女王全属性技能强化,主要技能全部保留,选中则额外强化,击杀敌人掉落资源 虫族生命值只有一倍但是孵化成本减半,兵种三科技全部打开,选择后该科技达到三倍强化 神族战役=> 亚顿之矛能量恢复加速,1-2面板无冷却时间,有能量就可以随意使用 3-4面板效果和威力1.5=>2倍效果 折跃充能3,所有单位特性大幅强化,部分技能自动释放 诺娃战役=> 单位科技提供额外强化,保证都有用武之地 诺娃装备特效强化,战斗中可以随时更换。 精英模式下敌人没有生命值加成,可以体验RPG和少量精英部队的战斗力,但非精英模式下还是以部队战斗力为主
合作模式可以按“赛季”固定地图ai和因子来做"平衡" 残酷+难度下调后,感觉乐趣降低,因为出现因子叠加buff的情况变少,相比之前4环境因子容易太多 没有官方限制的条件下也没有挑战的欲望 更大的问题就是很多人看到被克制的因子就直接退,不会考虑想对策或者尝试挑战(当然存在所选指挥官彻底过不了的情况) 这些因子在没有强制的条件下会被玩家彻底抛弃,当成恶心或者无意义的存在 因子的乐趣其实是增加挑战,或者寻找对策解决难题的过程 如果一个指挥官仅仅按杀敌能力来衡量强弱,那么强弱其实只是一个数字的大小 合作模式的变数,是各种玩法的总和 归类来说突变的玩法并非是“正常”运营混搭出兵的流派,大概还包括 RPG流 - 英雄作为主力 精英流 - 高DPS高AOE高生存单位正面打击敌人 暴兵流 - 单位在数量足够的情况下可以发挥巨大威力,需要憋,比如大脚,坦克,死神,机枪兵,航母等等 塔防流 - 无需进攻或者敌人路线较少的图可以固定区域塔防完成任务 偷鸡流 - 利用地势或者时间停滞等方法避免正面和敌人交战,直接打击任务目标 自爆流 - 自杀型单位, 毒爆,爆蚊, 毒爆宿主, 自爆坦克等 秒杀流 - 通过堵截敌人位置, 蜘蛛雷,天雷,埋翔等瞬间解决敌人 炮灰流 - 一次性单位, 打完就不要了,或者能跑回来几个就赚 面板流 - 极端情况下,使用面板为主力打击重要目标,完成任务 这才是RTS游戏最真实的一面,没有唯一套路 很遗憾的就是随机残酷+造成了错误的随机性,错觉就是看到不好对付的因子组合就直接F10Q 比如双刃剑,扫雷,勾引,小捞油水,又比如黑死病,杀戮机器人, 拿钱说话,极性不定...更别说有一些叠加因子,勾引自爆,吸血散射,晶矿勾引,巢虫护盾,灵能飞弹... 如果官方每隔一段时间直接把几个因子绑定到残酷+的地图中,并且固定一个AI, 相当于一个稍微弱的突变,因子几乎不重复,那么十几张地图分配下来多数因子都会出现 相对来说每个指挥官都有若干不好对付的因子和AI,而一些指挥官又能几乎无视这些组合,这样就不会出现一个开挂指挥官轻松通吃所有还夸夸其谈强不强的情况,也就实现了全部指挥官的平衡
光线追踪与传统游戏优化的真正矛盾 总是有人说这东西等技术成熟就能使用,但是真正的原理告诉大家 事实就是 哪怕光线追踪模块的性能达到了100年后的XXXX型超算水平,这样的游戏性能的帧数也还是得降一半。 传统3D游戏里, 你看到画面只是显示器的一面, 然而, 3D环境不止有正面,还有侧面和背面。 通常情况我们只看游戏人物的背影,而游戏人物的正脸是完全不渲染的,显示器的左右侧面和背面也是不渲染的,你看到的镜子自然没有反射(除非游戏厂商强行用其他方式实现),屏幕外的物体倒影不会出现在水面上,有也只是屏幕内的。 今天的游戏之所以能实时渲染,就是通过这种删除“看不到”的地方来减少了渲染量,把最多的计算量用在了显示器视野内来达成的 然后,强行实现光线追踪,就不能删除任何“看不到”的模型,就得毁灭这种“优化”的本质。 那么屏幕左右侧面和背面的计算量有多少呢, 简单估算就是3倍, 据说现在的RTX光线追踪最高画质,就是以侧面背面35%的分辨率保留的,即使如此,也让游戏帧数少了一半(3 X 35%),低特效15%的话,画面就惨不忍睹了。 实际上,这个光线追踪的额外计算,相当于完全没有依赖显卡(传统)的性能,真正导致显卡暴降的原因,是游戏“优化”的方案彻底失效,导致模型单位增加了3倍造成的。 也就是说, 只要想实现“光线追踪”, 无论如何都得保留3D场景全部的渲染单位,这样最少得花费一半计算量的代价(并且都这样分辨率效果才35%)。 然而问题就是, 如果游戏厂商把这一半计算量用在贴图,模型精细度上,带来的画面效果会更加震撼。 每当有人鼓吹光线追踪的时候,我都会想起拍电影电视剧的场景,布景的时候,谁又会需要去考虑看不到的侧面和背面呢? 主持人上身西装下身短裤播新闻,不真实雅观(但观众看不到), 但是实用方便。
首页 1 2 3 下一页