云一下iPhone15pro 和 A17 - 高通吧

level 11

Mach-O 楼主

先叠个甲 ip android 双持 8gen2 a16。a17已购 2D图形跨平台渲染-引擎开发从业人员
不偏袒任何一方基于现有数据云分析不接受无脑拉踩
讨论问题请提出论据
先估计几个传统指标
1. 传统光栅能力：目前看到的测试数据应该是赶不上8gen2峰值（基于已有的aztec跑分来看）目光目前测试数据非常少，不排除后面有进一步提升的可能性
2. 光追性能：这个未知没有已知测试成绩
3. 显存带宽（UMA 下与 Cpu共享）：从曼哈顿3.1 1080poffscreen 来看成绩相比去年只有 5percent的提升。结合苹果没有说明内存频率有升级，目前个人认为是内存频率没有升级5%的提升来自于缓存系统的优化。
PS：个人认为该测试项目在目前各家旗舰机中不少都面临着内存带宽瓶颈 8gen3如何配套升级了内存曼哈顿成绩可能还有提升这部分跑分差距会和 apple a17进一步加大
4. 能效比：已知A17 加了一个核心，中低频能效比本就会有一定的提升，在配合N3B的工艺，也会带来一定程度的能效比提升。这次A17的中低频（5w以内）能效，应该会比较好看。我个人猜测，应该会强于8gen2，持平8gen3 （N4P就指标上看，能效好像也N3B没差，主要是差在密度上）
再聊下GPU架构：
MeshShader：
这个是应该是DX12的时候被微软加入DX标准里的。之前在DX11的时候，老黄是作为一个扩展实现。主要是用于解决顶点索引效率问题的。再MeshShader之前，这部分计算需要先提交一次任务到GPU，走一遍渲染管线，再到CPU，再由CPU组织好下一部分数据再送进渲染管线渲染。
这样再CPU和GPU上一来一回，造成了两个方面的浪费
1. 每提交一次任务到渲染管线，等待任务回来，这都是要等待GPU算好返回的，是有时间开销的。这样就造成了效率低下。表现就是帧率上不去。
1. 带宽的浪费，需要在GPU和CPU side 不停的拷贝数据。移动端带宽增大，功耗也会增加。
着重再聊一聊MetalFX：
现在还没有移动端的MetalFX的游戏，这里我先大胆点给一个爆论，我也没去验证哈。不一定对
即 A系列芯片，从A17Pro开始，才支持MetalFX，更老的不支持。M系列从M1开始支持。
预测从之后再往回看，A17在苹果的地位应该是和M1 和 RTX2060 一样的。
再说我的依据：
根据现在最新的《Metal feature set tables》 Ver. May 26, 2023
这里关于metalfx的介绍

Apple7和Apple8的MetalFX的支持是“部分支持”
后面还有行小字
"""
7. Some GPU devices in the Metal3, Apple7, and Apple8 families support MetalFX spatial upscaling. You can check whether a GPU supports spatial upscaling by calling the MTLFXSpatialScalerDescriptor type’s
supportsDevice(_:) method at runtime.
8. Some GPU devices in the Metal3, Apple7, and Apple8 families support MetalFX temporal upscaling. You can check whether a GPU supports temporal upscaling by calling the MTLFXTemporalScalerDescriptor type’s
supportsDevice(_:) method at runtime.
"""
同是Apple7 Apple8里，已知的是 M1开始就支持MetalFX了，但仍然Apple7/8都是部分支持，我认为应该是A系列的三款芯片不支持MetalFX。
这次苹果给了NPU翻倍，我个人认为，这才是今年最大的升级点。远比CPU 和 GPU来的都要更大。

2023年09月17日 04点09分 1

level 14

巴萨7号

metal feature set过时了

2023年09月17日 04点09分 2

Mach-O

是的，不过苹果还没有更新新的文档

2023年09月17日 05点09分

level 14

巴萨7号

先顶一下

2023年09月17日 04点09分 3

level 14

巴萨7号

之前有个开发者写博客说mesh shader就是垃圾还不如compute shader，苹果m系列实测砍半性能，不知道a17怎么设计

2023年09月17日 04点09分 4

卧楼听松

从原理上说，没有任何定功能的shader打得过CS，因为CS可以无限优化算法，当时Apple不支持GS的时候也是这样说，但生态就是生态，苹果也得低头

2023年09月17日 04点09分

NPacific

其实我挺奇怪为啥3DMark里那个Mesh Shader测试就可以暴增性能

2023年09月17日 04点09分

Mach-O

实际使用也得看开发者的优化。开发者不用，等于没有

2023年09月17日 04点09分

虚伪的我

Compute Shader优化后本来就比Mesh Shader强。。。我还以为是常识。而且业界这两年都开始嫌弃Mesh Shader了，以后还会有效率更高的Shader

2023年09月19日 09点09分

level 5

龙舌兰欸🍺

A16属于Apple8吧 [小乖]

2023年09月17日 04点09分 5

巴萨7号

没错

2023年09月17日 04点09分

Mach-O

A16 是 Apple8， A17 是 Apple9

2023年09月17日 04点09分

level 11

Mach-O 楼主

再聊一下，到底显存带宽多少“没有瓶颈” 这个说法：
已知：我们让显卡去挖ETH。大家都会带宽瓶颈。
所以，脱离了实际应用场景来看带宽，是没有意义的。
其实普通大众对帧率的感知并没有这么强，真正有感知的是延迟和卡顿。
很多人之所以明显能感受到30-60 60-120的区别。
1. 是因为30 不跟手，鼠标动了，屏幕还没动（还没到下一个渲染周期）二是大家很多人玩游戏要关动态模糊，一些纯PC游戏动态模糊做的也有问题，的确让人晕，主机上也都有动态模糊，且不能惯关，也没听说谁有问题。
2. 是因为主机上手柄本身响应没有鼠标灵敏，所以手柄玩30fps的游戏，用户感知上是明显比用鼠标流畅的。
这里给两个行业标准：
1. 主机游戏开发，一般就是30fps为基准，再能达到这个基准的要求上，尽可能的增加画质。
2. 视频通话：我给个大家应该都不知道的信息，我们常用的视频通话，视频会议，主播连麦。这些视频场景，视频帧其实只有15fps，你没看错，就是15fps。连24都没有，大家又觉得卡吗？没人发现吧。
所以，再主流的游戏场景中，我个人认为曼哈顿3.1的测试，是严重偏离当前大众使用环境的。和现在PC端的CSGO测试一样，就是个心理娱乐项目。真正应该测试的是更贴近主流游戏的 aztec。这样的场景下，大部分机器其实都不会因为帧率过高而遇到带宽瓶颈。也更贴合大家的主流应用场景。
或者我再举个例子。原神/崩铁大家能跑满吗，这种场景下，主流机器都没有带宽瓶颈，那我们的SOC，真的有带宽瓶颈吗？如果没有带宽瓶颈，一味的超频内存，再曼哈顿3.1里获得那些看似的提升，真的有什么实际体验上的提升吗？

2023年09月17日 04点09分 6

NPacific

@巴萨7号比如LPDDR5X 8500的颗粒跑6400应该会比LPDDR5 6400的颗粒功耗低

2023年09月17日 05点09分

巴萨7号

@Mach-O 好像今天，好几个人都这么说，影视飓风甚至连预约都发了

2023年09月19日 09点09分

巴萨7号

其实我最好奇的是升级内存例如5到5x到底会不会降低功耗，毕竟很多开发者都说内存功耗占了很大一部分，可是吧友测试也没这些发现

2023年09月17日 05点09分

NPacific

@巴萨7号对中低负载应该有帮助，LPDDR升级应该指的是同频率往往功耗会下降不少

2023年09月17日 05点09分

level 13

NPacific

Metal Feature Set Table好像还没更新，不知道Apple9加了什么

2023年09月17日 05点09分 7

Mach-O

这个文档好像一直更新的比机器发售要晚，不过补齐了不少新feature，我估计这次GPTK的运行效率是不是又要增加了

2023年09月17日 05点09分

NPacific

@Mach-O 按理说应该会 [滑稽]

2023年09月17日 05点09分

level 8

巨蟹无限之眼

再等10天到9.27，原4.1应该会支持Metalfx，根据4.0.54beta新增的系统文本

2023年09月17日 05点09分 9

战神孙悟空

米哈游技术这块确实有点实力 [你懂的]

2023年09月17日 05点09分

v5c87

@战神孙悟空有个锤子 pc三年了不开120帧也不开dlss 天天就知道蹭苹果热度

2023年09月18日 09点09分

level 14

巴萨7号

求上手测一下gpu浮点，看看3.1到底啥原因

2023年09月17日 05点09分 10

NPacific

水果iPhone上怎么测GPU浮点...

2023年09月17日 06点09分

Mach-O

我到货比你应该还晚了苹果官网当天我怎么都进不去买到都10月中旬了应该是部分cdn挂掉了。往年都03 04就下完单了 [笑尿]

2023年09月17日 06点09分

Mach-O

@NPacific 自己写cs？不过这样理论上看geekbench的图形跑分应该也有部分参考意义

2023年09月17日 06点09分

巴萨7号

@NPacific 用mps测矩阵乘法? 效率80%以上, 我记得github有类似的测试

2023年09月17日 06点09分

level 9

wfjleo

原神4.1版本出来就知道metalfx怎么样了

2023年09月17日 06点09分 11

wfjleo

@Mach-O 是的，27号上线

2023年09月17日 10点09分

Mach-O

4.1就能出吗米哈游这么虎的等到时候拿ipad先试试看

2023年09月17日 06点09分

Peter寒冰

mhy：用心優化ios，用腳優化安卓 [滑稽]

2023年09月17日 06点09分

Mach-O

@Peter寒冰这个也没什么办法吧米哈游用的unity 2017 那个时代的unity 对Android优化就那样

2023年09月17日 07点09分

level 14

CGBull

MeshShader之前计算需要先提交一次任务到GPU，走一遍渲染管线再到CPU，再由CPU组织好下一部分数据送进渲染管线渲染。这这一段解释得更全面一点。

2023年09月17日 06点09分 12

level 12

·昨夜闲潭梦落花·

NPU用在哪儿？

2023年09月17日 06点09分 13

Mach-O

@笑吧宝贝目前就是用来跑本地模型还有个metalfx

2023年09月17日 07点09分

某妖的尖叫……

NPU规模搞这么大也不知道他这个metalfx能做到DLSS几的标准

2023年09月17日 07点09分

Mach-O

@某妖的尖叫…… 看文档是支持类似 dlss 2.0 和 fsr1 类似的这两个开发者可选

2023年09月17日 07点09分

某妖的尖叫……

@Mach-O 那怪了他那GPU的规模跑rsr1很废的。。好歹dlss能利用NPU异构

2023年09月17日 07点09分

level 14

CGBull

GraphicsPipeline的流程是CPU将顶点/索引数据加载到VRAM上，GPU的CommandProcessor会给DrawCall派发到GeometryEngine，处理一系列VertexFetch等。Fetch完的数据存在Cache上，如果不是TBR就直接派发给RB与CU去算VertexShader与PixelShader了，反之会写回VRAM待整个Tile的Vertex数据Binning完成后再送给RB/CU去跑。这个过程产生延迟但是大幅度减少反复的读取以节省带宽，对于TBR的GPU来讲是更快的操作，只要Tile内三角形数量不要太多导致爆Cache。

2023年09月17日 07点09分 14

卧楼听松

@巴萨7号如果是做引擎，那整个生态要很多很多人投进去，这不是苹果的风格，它只喜欢摘果子，尤其是将熟未熟的。如果做平台，那就得接受别人做不做3a你都无法控制的局面。如果做第一方，那必须要足够多的人使用你这个平台去玩3A。算下来，苹果哪条路都不通，和谁都不是对手

2023年09月17日 09点09分

Mach-O

讲的专业赞一个

2023年09月17日 07点09分

巴萨7号

能不能理解成m1m2跑某些游戏不行是三角形爆了

2023年09月17日 08点09分

CGBull

@巴萨7号可能有这方面原因，AMD与NV的TileCache都贼大，Apple Silicon的贼小很容易爆 [狂汗]