g76的这个dual texture mapper - gpu吧

level 13

从炮神发的消息来看，arm官方也承认g76≈2*g72了…
我翻了翻官网，已知从架构G76相比g71的变化：
1.计算模块规模翻倍（控制逻辑单元没变）
2.缓存通道翻倍（寄存器堆栈没变）
…
…
3.然后就是这个dual texture unit，说是吞吐量比g72翻倍，还看到报道说在g51强首次运用过
哪位大佬能解释一下吗 [委屈]

2018年11月18日 12点11分 1

level 8

GreyTUI

为啥g76这代能效提升这么大?

2018年11月18日 13点11分 2

暂时就叫这名了

我能看懂的大概以下几个原因吧

2018年11月18日 13点11分

暂时就叫这名了

制程红利这个大家都知道

2018年11月18日 13点11分

暂时就叫这名了

基础计算模块的规模翻倍，从4宽度线程粒度变成8宽度线程粒度（arm原来可能是为了分割进程，通过使用更小的线程粒度降低线程发散的可能性，但会损失性能）

2018年11月18日 13点11分

暂时就叫这名了

线程粒度反映了资源/面积密度和性能之间的平衡，较大的线程粒度可节省控制逻辑单元数量（eg.单个32宽度线程粒度只需1个控制逻辑单元，而8个4宽度线程粒度需要8个控制逻辑单元）这次arm把线程粒度翻倍的同时，逻辑单元没变，所以每个eu的规模没有变大多少只增加了28%

2018年11月18日 13点11分

level 12

zhu3536

g71、g72一个核心，处理双线性纹理过滤的时候，1texel/clock，g76 2texels/clock。g72处理三线性纹理过滤的时候2clock处理一个texel，平均0.5texel/clock。540处理双线性和三线性纹理都是16texles/clock，anandtech有篇文章里讲过。
g51里的那个胖核心，dual pixel shader core，和g76的一样。g51里的single pixel shader core 1texel/clock。像素处理能力和纹理处理能力1:1，g76、g51胖核心，2pixels/clock。
不过记得980的texturing offscreen成绩和理论纹理填充率之比比较低。我本想跑一下，结果老出错，说什么找不到文件。。

2018年11月18日 13点11分 3

zhu3536

g51 dual pixel shader core、g76的texture unit都只画一个，但输出能力翻倍了。bifrost的其他核心也只画一个texture unit.

2018年11月18日 13点11分

暂时就叫这名了

@zhu3536

2018年11月18日 13点11分

暂时就叫这名了

@zhu3536 dual texture unit的规模大小应该没怎么变吧？

2018年11月18日 13点11分

zhu3536

@暂时就叫这名了我认为变了。不同gpu的texture unit不同，比如540的和g72的。g51的single和dual中的texture unit，构成不同，输出能力才不同。

2018年11月18日 14点11分

level 13

暂时就叫这名了楼主

2018年11月18日 14点11分 4

level 11

花下语♋

g51不行，mp4还不如509

2018年11月19日 05点11分 5

安0稳

麒麟710的MP4不是略强于636的509吗 [疑问]

2018年11月21日 02点11分

花下语♋

回复安0稳 :低压还行，高压不行刺激战场高清被636吊打。

2018年11月21日 02点11分

暂时就叫这名了

@花下语♋ 主要是看频率还有点高 [阴险]

2018年11月21日 03点11分

花下语♋

@暂时就叫这名了上mp6有毛个问题，还不是扣为太扣，活该天天被骂。 [捂嘴笑]

2018年11月21日 03点11分

level 12

zhu3536

今天炮神更新了gpugflops1.50，测了下。@还是那个小新💯
荣耀play vec4乘加运算 fp32 277gflops，fp16 412gflops，scalar乘加运算 fp32 239gflops，fp16 229gflops
mate20x vec4乘加运算 fp32 432gflops，fp16 642gflops，scalar乘加运算 fp32 372gflops，fp16 372gflops
米6 vec4乘加运算 fp32 331gflops，fp16 678gflops，scalar乘加运算 fp32 322gflops，fp16 598gflops
8890版s7 vec4乘加运算 fp32 180gflops，fp16 180gflops，scalar乘加运算 fp32 50gflps，fp16 50gflops
adreno的浮点高，scalar和fp16效率极高。bifrost的scalar fp16不能翻倍，scalar的效率也比adreno低，vec4 fp16也没翻倍，1.49倍。至于midgard，本来跑gpugflops只有vec4+scalar+7点积中的vec4起作用，fp16全部不能翻倍，scalar效率也非常低。

2018年11月20日 15点11分 6

暂时就叫这名了

zhu神，听说安德鲁砍了vec2有影响吗？

2018年11月20日 16点11分

同济翔

fp16可以翻倍对效率有很大贡献啊

2018年11月21日 00点11分

zhu3536

@暂时就叫这名了你是听hexuan说的吧？不知道这说法哪儿来的。4alu，处理Vec4乘加运算，一周期搞定，4*2=8flops。如果不能把2个vec2拼成vec4，那么4alu只有一半在工作，浮点2*2= 4flops，8:4= 2:1。能把2个vec2拼成vec4，浮点是一样的，1:1。

2018年11月21日 02点11分

zhu3536

@暂时就叫这名了 ·假设adreno 16alu为一组，simd16。既然adreno处理vec4效率高达91%，那么这个simd16是能同时处理4组vec4的。即使不能同时处理8组vec2，同时处理4组vec2是没问题的，vec4:vec2 =2:1，我认为8:1不可能。而且adreo处理标量效率高达89%，这个simd16是能同时处理16个scalar的。

2018年11月21日 02点11分

level 7

🌸敏🍒

得益于4/8的alu位宽 mali的GPU利用率极高与竞品相比达到相同性能需要的理论性能低不少不过缺陷就是面积大

2019年01月02日 00点01分 7