ioncannon的个人资料

GPU GFLOPS的浮点数的bug GPU GFLOPS的浮点一直很迷——一些网友又喜欢通过这个数来推测SoC的GPU的架构/频率。有贴吧网友发现不管是Mali还是Adreno，乘法的浮点数总比理论值高1/3Mali的MADD也比理论值要高。以至于一些网友说，Mali GPU里面还有隐藏的EE，ARM没告诉大家偷偷加料了这个显然是不太可能的—— 我今天研究了下，发现是GPU GFLOPS的一个bug 我们先回顾下Mali Bifrost的ALU架构，包含1个4x32bit的FMA和1个4x32bit的ADD首先我们分析下为什么Adreno/Mali跑乘法的GFLOPS都会比理论值多1/3：图6：上半部分是Vec4乘法的shader code，大量的计算其实都在循环内。下半部分是shader用离线编译器编译后，再反编译的结果。可以看到，每增加2个vec4的乘法运算，只多出6个32bit的FMA指令——理论上应该是8个才对：原因就在上面shader代码开头u_vColor1.a=1.0这一句——因为乘以1.0等于没乘，这部分乘法被编译器给优化掉了，在反编译的结果中也可以看到，只有乘0.7的FMA运算。所以看似是4个FLOPS，实际只做了3个FLOPS。这就是乘法FLOPS凭空多出1/3的原因。。。图7：把u_vColor1.a=1.0改成u_vColor1.a=1.1，可以看到每增加2个vec4的乘法运算，多出8个32bit的FMA指令，而且常数1.1也参与了FMA运算，这样就是正确的了。接下来看MADD：图8：现在有bug的MADD的版本。u_vColor1.a=1.0，本来1条vec4 MADD计算应该是4个32bit的FMA，还是因为乘以1等于没乘的缘故，Mali的编译器把这部分优化掉了，变成了3个FMA+1个ADD指令（图下半部分），考虑Bifrost的ALU架构，ADD由ADD ALU做了，决速步从4个FMA变成3个FMA，就导致了Mali的MADD多出1/3。而Adreno没有额外的ADD ALU，就不会凭空多出FLOPS。图9：修复buf的MADD版本。可以看到，编译出的代码中只有FMA，没有ADD ALU的指令了。至于Mali的FP16乘法不受bug影响不增加，Adreno会增加，这个自己思考下。。。 @zhu3536 所以什么隐藏的EE/ALU应该是不存在的，只是bug而已啦

祝各位通吧吧友新春快乐！祝各位通吧吧友新春快乐！万事如意～新的一年多发帖多水水代表吧务给大家拜年啦

昨天从海思那边了解到的980新消息昨天从海思那边了解到的： 1. A76，超大核和大核都魔改了，明确告诉我同频性能比公版高，说2.6G的超大核大概约等于2.9G的公版好像。因为改了，ARM是不让叫A76的，最多只能是based on A76。其实ARM不管你是改强还是改弱的，改了就不能叫。特别是你改强之后要是还叫A76，别的厂商从ARM那边拿货，做出来一测发现达不到，会以为ARM给了缩水版。。。海思这边本来还考虑给修改版的核心取个名，不过最后没取。。。我说以后还是取一个吧，听起来比base on Cortex有**

980的die shot出来了，真漂亮。。。超大核和大核明显不一样另外die size只有70多

GPUGflops更新1.0版 GPUGflops更新1.0版。新增多种烤鸡模式。新增数据集大小设置。增加采样间隔设置。增加选定核心烤鸡（可以只烤小核心啦！也可以任意选择大小核心组合烤！）矩阵乘法在A73（835）上选择1KB数据集，1s以上采样间隔，A57优化模式，可以到15.4GFlops 理论值2.36*8=18.88GFLOPS

高通处理器免Root锁频小工具Qboost 支持CPU大核/小核/GPU的调节，可以调满血或者锁定频率（范围），前台开服务，只要服务不杀掉应该一直有效。基于Snapdragon Power Optimization SDK 支持425/430/435/630/650/652/653/660/808/810/820/821/835 需要6.0系统以上。欢迎测试。

后台记录功耗的工具PowerRec GFXbench我这台装不了。。。做了个小工具PowerRec，作为GPUGflops的补充，可以挂后台记录功耗，不会轻易被杀了。http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Ft.cn%2FRWxGcpv&urlrefer=c1995eeb3bdd147f4dac24d16114f737

970拷机简单测试体验机，mate 10 pro。20日到手前菊花刚拆封刷了量产固件。空载0.4x-0.6W GPU单shader vec4大概4.5W，减去空载大概4W。比起960减去空载6W提升还是挺大的，而且GFLOPS比960大概有10%的提升。至于跑GFXbench，功耗肯定会比单烤shader大的。 Mali能效比一直比较悲剧，能效比我觉得肯定跟Adreno有差距。

835的die shot techinsights 更高清的PDF可以自己去注册下载我就不贴了

华为麒麟960交流会御剑说直播一下 G71 MP8，UFS 2.1 其他规格都在图上。

NVIDIA在Maxwell架构上使用了移动GPU常用的TBR渲染方式转Anandtech： http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.anandtech.com%2Fshow%2F10536%2Fnvidia-maxwell-tile-rasterization-analysis&urlrefer=6b2e44905598bd47499b4a30ea632d76 渣翻译：对于俺这种靠分析GPU来混饭吃的人来说，老黄的Maxwell架构是让我比较恼火的一个东西。28nm的Maxwell架构通过不多的核心面积增加，却获得了巨大的能耗比提升，使得老黄在工艺没有升级的情况下获得了一整代的性能提升。虽然以前也有过工艺不升级架构升级的情况，但从来没像Maxwell这次这么暴力过。让我烦恼的是，NV对外分享了一些Maxwell架构相比Kepler架构效能提升的细节，但他们从来没把最重要的部分公开出来。我们知道，Maxwell的的SM结构进行了改变，使得峰值性能更容易达到，还有什么分区技术可以在内部互联上少费点电，L2缓存也增加了，底层（晶体管层面）也优化了——但是老黄还是隐藏了一些信息—— 然后不少人开始怀疑，老黄整了些移动端的高效能技术到Maxwell上去——然后Anandtech的好朋友，David Kanter of Real WorldTech 终于研究透了Maxwell和Pascal，今早发了个视/文章，简述他发现了一个重要的证据，老黄在Maxwell上实现了Tile-based Rendering简单说，通过折腾一些DirectX的代码来看三角形的光栅化操作，他确信从Kepler开始，NV处理三角形的方式发生了巨大的改变，然后现在的处理方式的Tile-Based Rendering Tile-Based Rendering在移动GPU上用的很多，Imagination PowerVR和ARM Mali都用这个。它的特点是把画面打碎成块块后，每个块块都可以被GPU整块做光栅化处理掉，相比之下，传统的Immediate mode rendering对整幅画面做光栅化需要消耗更大的内存（和电力）。对于PC这边来说，因为PC传统上一直是immediatemode rendering，所以老黄在Maxwell上用Tile-BasedRendering应该是克服了一些方法上的弱点和潜在的兼容性问题。（懒得翻译了）NV现在应该是唯一一个在桌面GPU领用用TBR的厂家，同时这也可能可以解释老黄的GPU架构领先于农企和牙膏厂的原因，让我们看看他们将来会干些啥

高通官方吧主请进高通吧成立4年来，主要作为智能手机爱好者探讨和交流的园地。上周成为认证贴吧后，今天看到官方吧主已经上线并进行了一系列操作，不知道高通官方对本吧的运营是否已经有计划，可否与本吧现任吧务团队进行下交流？ @高通官方 @高通官

关于高通吧变为官方认证贴吧的说明现在吧务也不知道咋回事，在有结论之前，还请各位吧友保持冷静，不要随便水贴和开车～（也不知道是美国高通买的还是上海高通买的。。。）精品贴吧务已经在备份，各位吧友也可以自行备份需要的帖子。感谢大家对高通吧的支持～

拷机更新0.7版，增加整数测试 0.70版增加整数测试用的Dhrystone 测试，也就是DMIPS，因为比较简单啦，Dhrystone的局限性自己百度都是整数没有浮点单线程比较靠谱多线程下，由于存在部分线程共享的全局变量，性能会有损失。测试结果： Mate 8 Kirin 950， A72 2.3GHz，1.6W 8500DMIPS 空载0.5W，拷机2.1W，增加1.6W 小米5，高通820， Kryo 2.15GHz， 2.7W 8500DMIPS 空载0.4W，拷机3.1W，增加2.7W P8，Kirin 935， A53 2.2GHz， 1.3W 3800DMIPS 空载0.5W，拷机1.8W，增加1.3W整数 8536DMIPS，总功耗约2.1W，所以是1.6W增加米5P8连接： http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1gebZkT9&urlrefer=cabee85b13942eb198a5df4903e18be0

拷机V0.70版，增加整数测试

意见征集贴，大家觉得拷机软件还需要加些别的什么功能么包括一些细节上的修改啥的。。。另外以后不单独发贴更新了，就在这里更新新连接： http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1gebZkT9&urlrefer=cabee85b13942eb198a5df4903e18be0 原来的被bd封了。。。加了给AMOLED用的黑屏模式。。

Kryo/A72工作曲线同频看，Kryo功耗还是比A72大很多的。。。不过考虑同计算能力（仅限于Neon FP32 MADD），Kryo的功耗增加相比A72有限能效比低是肯定的，但毕竟能Extend到更高的性能当然，Perf/Power总体上没法跟A72比，不然那真是黑科技了。另外：820 大雕，正常版，降档地雷。

Cyclone，M1，Kryo和A57/A72 补图。。。画了下

A57/A72，Exynos M1，Kryo，Cyclone处理器细节 llvm的code里，但丁发现的。我整理了下： A72: 3 width micro-op re-order buffer： 128 8 pipelines: 2* Simple integer 1* Complex integer(Mul/Div) 1* Branch 2* Load/Store 2* FP/Vector M1: 4 width micro-op re-order buffer： 96 9 pipelines: 2* Simple integer 1* Complex integer(Mul/Div) 2* Branch 1* Load 1* Store 2* FP/Vector Kryo 5 width micro-op re-order buffer： 128 6 pipelines： Kryo UnitXA Kryo UnitXB Kryo UnitYA Kryo UnitYB Kryo Unit LSA(Load/Store) Kryo Unit LSB(Load/Store) Kryo流水线比较奇怪，2个X，2个Y，2个Load/Store 指令分为X类，Y类，XY类：比如integer ADD/SUB/DIV/MUL/MLA ，部分浮点ADD/SUB，属于XY类，X单元和Y单元都可以执行部分浮点指令，比如FMLA属于X类，只有2个X Unit可以执行 Cyclone: 6 width micro-op re-order buffer： 192 9 pipelines: 2* Simple integer 2* Complex integer(Mul/Div), Branch 2* Load/Store 3* FP/Vector

拷机软件 GPU GFLOPS GPU GFLOPS 顾名思义，本身是拷GPU的。不过也不是拷GPU的全部，只拷Pixel Shader部分，根据渲染帧率计算当前GFLOPS。每个Pixel做400次循环，每个循环包括52个vec4的计算。基本就是把GPU的ALU给用满，不会吃纹理/带宽。所以拷GPU的功耗大概不如GFXBench之类的，毕竟人家还用了纹理/内存带宽。用法： 1. 支持拷GPU和CPU，可以同时拷，可以分开拷。拷哪个就在哪个下面打勾。（Stress CPU/ Stress GPU）如果都不打勾，仅作为功耗/温度监控 2. 支持功耗显示：需要先点击 “获取电流信息” 按钮。部分机器可能不支持，点击后出现卡住，则不要点击了。 3. 功耗/温度监控第一个 show Power是显示实时的功耗信息后面是SOC/手机的各部分的温度传感器，显示实时的温度。根据自己的需要进行勾选。 4. CPU拷机的线程数，根据自己需要填写，最多支持12线程。 5. 顶部的 GFLOPs 分别显示当前的GPU/CPU 的最大计算性能（MAX），平均计算性能（AVG）和当前计算性能（NOW） S810 双拷，GPU降到510MHz A57下线，A53降频。此时峰值功耗11W，平均功耗8WMate 8的GPU GFLOPS 0.5 apk http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1jHauCaM&urlrefer=bd14f5fd198f4c435805afd3646dd12a

GPU GFLOPS 更新0.5版本！更新： 1. 修改CPU GPU双拷时，CPU负荷过高导致UI刷新慢，GPU的性能数值下降的问题 2. 增加温度显示。 3. GPU 和 CPU可以分开拷。如果都不选择，则为功耗和温度监控。 S810 双拷时，GPU依旧可以满载（实际降频到510MHz了，过热）Mate 8：上一贴： http://tieba.baidu.com/p/4378882784 http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1jHauCaM&urlrefer=bd14f5fd198f4c435805afd3646dd12a @b958755854

GPUGFLOPS更新V0.22版本修改了 fragment shader的代码，原来全是vec4乘法，现在是vec4乘加，拷机更充分。利用架构优势，实测 PowerVR，GeForce和Adreno的GFLOPS提升50%， Mali没有变化。 Tegra X1峰值450GFLOPS，接近理论值512G。旧版：Adreno 430有330GFLOPS+ 原贴这个http://tieba.baidu.com/p/4378403439 http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1jHauCaM&urlrefer=bd14f5fd198f4c435805afd3646dd12a @b958755854

拷机软件更新：支持GPU拷机+CPU拷机同时 GPU GFLOPS 顾名思义，本身是拷GPU的。不过也不是拷GPU的全部，只拷Pixel Shader部分，根据渲染帧率计算当前GFLOPS。每个Pixel做400次循环，每个循环包括26个vec4的计算。基本就是把GPU的ALU给用满，不会吃纹理/带宽。所以拷GPU的功耗大概不如GFXBench之类的，毕竟人家还用了纹理/内存带宽。这是S810的Adreno 430， 220GFLOPS实测Mate8， T880 MP4实测90GFLOPS，功耗3W出头，比GFXbench略低但是！本软件支持CPU和GPU同时拷机！同时开8线程CPU拷机，能把低亮度飞行模式的Mate8拷上10W！你怕不怕！暖手神器！然后没多久就降频了。。。MX4， G6200，大概40GFLOPS（GPU）P8，kirin 935，46GFLOPS等集齐点兔5个我就不做了 http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1jHauCaM&urlrefer=bd14f5fd198f4c435805afd3646dd12a

820现在用CPU Burn读的功耗很可能不准就先别拿这个数据各种水贴了。能坚持40多秒才throttling，功耗不会太高的。

Neon烤机升级版：0.20版不好意思。。。这次更新比较多： 1. 烤鸡算法改了下。。傻傻的vadd和vmul忘记用vmla了这次应该能把浮点性能榨干，发热也更感人，如下图 Mate8 飞行模式最低亮度待机0.5W，单核能烤到2.4W，双核3.8W，三核5.2W，四核6.8W 平均每个A72 1.6W -------------------- 2. 移除了Workload大小选择，现在没啥用 3. 暴力模式，大概20s刷新一次（普通模式约1.25s刷新一次），连着跑压力更大 4. 启动程序时不再读取电流信息，而是通过按钮“获取电流信息”点击后获取避免一些机器启动程序白屏。。。（点一次就够了！）最后请认准0.20版！ http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1jHauCaM&urlrefer=bd14f5fd198f4c435805afd3646dd12a @b958755854

Neon烤鸡软件更新下更新内容 1. 支持最多12线程拷机—— 因为10核心的X20要来了 2. 显示运算速度（GFLOPs） 3. 显示功耗——如果机器支持的话。。。部分机器可能刷新比较慢 4. 支持每个线程的数据集大小设置：其实对于这个程序没啥用，因为只是顺序写入，Cache完全能应付过来。所以默认最小值就行了。建议亮度最低，开飞行模式，这样功耗为稳定很多，如下图：apk： http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1kUdGve3&urlrefer=9997a9ef828157504534787ee91a3ee2

敬告各位新老吧友类似下图中偏离主题的跟风回复，一律删除。强调后若多次发现将予以封禁。高通吧欢迎各位和谐友爱的讨论

高通820实机Geekbench 单线程1700，上市前应该还有优化的余地。。。嗯

950能效比还是很喜人啊，anandtech那边出来了 Anandtech的Mate8评测出来了，Kirin 950感人 A72的specint提升要比Geekbench整数提升明显的多。大核能效比亮点啊，在测试负荷下功耗只有700到900mW，是7420大核的6到7成，真的是性能提升30%同时功耗降低30%啊！能效比算是压制目前上市的安卓SoC了吧（估计一方面体质好，另一方面测试项目不同，neon烤鸡还是暴力了点）看能效比工作曲线，950的大小核能效比是S810的3到4倍啊 810连A53小核的能效比都如此渣，连外国网友看了都说，nexus 6p应该用Kirin 950，手里的S810就是垃圾 GPU测试结果和我差不多，T-Rex毕竟ES 2.0新架构加成有限，能效比和7420差不多。Manhattan能效比优于7420。长跑性能损失10%，很不错了

Kirin 950 功耗测试，A72 2.3G单核1.25W 机器 Mate 8 拷机使用 Neon做FP32的MADD运算，每次4个FP32， 128bit 分别跑1-8线程机器在核心超过60度的时候就会throttling, A72开始降频单核满载下，妥妥保持2.3GHz，A72核心在55度左右双核满载，基本在60度左右，大部分时间稳定2.3GHz，偶尔去一下2GHz 见下图3线程和4线程 3线程能保持十几秒到20秒的2.3GHz，之后核心超过60度，在2.3和2.0来回跳 1分钟内会到三核心2.0GHz并且稳定 4线程，满血只能几秒，之后变成4×1.8GHz并且稳定核心基本都在60度5线程，比较乱，基本是来回切的节奏 6线程和7线程，此时A72基本稳定在1.2-1.5GHz，A53则保持1.8GHz 估计是海思做了限制，在这个情况下核心温度和电流都比3线程要低比如6线程和7线程，核心只有55度 8线程时，A72核心在0.8-1.2GHz，此时温度更低，核心50度出头，很明显是人为限制1到8线程测试场景功耗：换算得到的核心功耗：细节：测试时使用性能模式，北京暖气。电池未充满，电压4.15V左右，而测试时根据功耗不同，电压下降到4.05-4.13V不等因此取4.1V作为电压。 Neon SIMD FP拷机功耗会比普通的整数/浮点运算满载功耗大（参考x86 windows AIDA 64的稳定性测试，FPU拷机功耗大于CPU）所以，跟Anandtech的一些测试比较需要注意，因为不知道Anandtech用的什么测试，所以无法直接比较（话说Anandtech测x86的功耗用的idle to AVX。。。理论上测极限功耗就应该用浮点SIMD。。。流水线长能烧烤更多的晶体管）最后，950的核心功耗 A72 2.3GHz Neon FP满载大概1.25W/核心 2.0GHz下降到800 mW16FF+的A53其实挺感人，1.8GHz不到200mW 看来T16比T28/T20功耗下降一半，真的不是白吹的。。。

A72 2.3G 16FF+ NEON FPMADD约1.4W 核心60度就降频，不过单核和双核可以保持2.3GHz，三核1.8到2.0。单个2.3GHz的A72 用NEON浮点（4x FP32 MADD）拷机功耗在1.4W的样子。具体数据明天上。所以菊花3.5W持续性能还是有道理的。。。控制60度最多满血两个半核。不过NEON FP拷机压力还是大了点，此外核心控温60度估计这机器完全热不起来。

950 16ff+工艺电压挺低的后两张是7420的 950应该还有个2.5GHz的版本？反正这块是限制2.3GHz big core 0.9V跑2G，1.0V跑2.3G GPU 0.8V跑900MHz

it168这CPUBurn是我那个拷机软件吗但是10分钟不超过60度核心，这个我是不太信的。。。一定是哪里不对。

关于950沟通会的一些补充我得想想，有些能说的说，有些我觉得不能说的就不说了。。。其实就几个细节： 1.Q&A阶段，有华为Fellow（海思方面），终端方面，和台积电方面。提问到台积电方面，台积电的人貌似没有直接回答问题，先自顾自的说了一段高通的。大意是：大家大概会问高通最新芯片的情况啊，因为高通以前都是我们代工啊（这次820是三星）这次的情况，高通也是有自己的考虑啊～我们16nm很好很先进啦～总之代工这个事情很复杂，世界是很动态的啦～ 2. 台积电说16nm已经有几十个客户上百个片子，良率也上升向着20nm看齐 16nm生命周期会挺长？类似之前的28nm。 3.950存储是eMMC 5.1（支持command queue），还不支持UFS2.0 4. 950内存控制器是LPDDR3/LPDDR4 Combo。会有产品用LPDDR3——一方面低分辨率的设备用不到LPDDR4的带宽，另一方面说LPDDR4的能效其实不好，得等将来的LPDDR4e 单位带宽的功耗根本达不到PPT上说的那么。。5. 950那个“i5”是Cortex-M7，第一款超标量的Cortex-M，性能比起M3/M4之流很暴力。。。 6. S810的die size有157 mm2 。。。大的可怕，而且面积利用不高，有些地方都是空着的浪费的面积，不知道是不是赶工。。（5433是113 mm2） 7. GPU从T628MP4升级到T880MP4“也是听取了群众的呼声”。。。但最终还是觉得GPU在日常的使用率不高，带UI都绰绰有余，最终没有堆 16FF+很好，跑900MHz很有信心。。。 8. 根据Anandtech的报道，950那个ISP法国团队造，那个团队是2013年从TI OMAP那里收来的。 9. 将来各个厂商的中端芯片也会挺暴力。。 10. 跑安兔兔的时候，我把手指放在950上，不烫，是可以摸的。但是隔着一个DDR也不好说啥。。。

950沟通会海思麒麟950 跑分8万+ A72 2.3G A53 1.8G，猫还是Cat6。Mali T880 MP4，台积电16FF+。开发板上POP的是镁光D9SKJ，据说是LPDDR4

Anandtech出了个多核心移动处理器在各个应用中的占用测试谁来翻译一下啊http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fanandtech.com%2Fshow%2F9518%2Fthe-mobile-cpu-corecount-debate&urlrefer=df5b9724028f23097f7d1e5772b4ca10

高通S810大小核功耗测试分析手机是剁手兴nubia Z9 max，高通S810 因为开源了，所以随便改改。。。首先，通过dtb中的msm-thermal驱动，原厂是限制核心达到95摄氏度时，A57开始降频 105度时，核心强行下线 115度设备重启然而另外系统中还有个thermal-engine，做了进一步的限制白名单能到95度降频，非白名单直接75度就降频。。。 root后把/system/bin/thermal-engine改名，可以禁用这玩意，从而达到A57 95度降频thermal-engine中的白名单，安兔兔之类的你懂的=========================================== 我们修改dtb，来修改msm-thermal驱动的参数比如改到125度或者145度降频。。。。就能更加满血一点点。。。 ---------------------------------------------- 然而并没有什么卵用，高负荷下，满血核心很容易接近120度，从而触发某个地方的重启。。。。于是单A57满载接近100度，双A57满载瞬间突破110度然后不知怎么重启了，都来不及截图QAQ，大概还有别的地方要修改。

CPU保持低温还是蛮有必要的真男人导致高温，静态功耗似乎会迅速加大（漏电导致） 78勇士提供了S600从100度拷机到152度的视频 http://tieba.baidu.com/p/3781517883 其中包括实时的电流变化，大概从50度到150度，静态漏电功耗增加了10W？这个视频里显示的功耗是电池放电，充电器额外提供5.3V 1.07A的输入，经过转换后大概有4.5W+的输入非CPU核心部分大概不到1W计算上图是4个Krait核心满载的总功耗（静态+动态功耗），随温度的大致变化其中50度的是我用8064 1.5GHz拷机估计的可以看到，即使到90度，也会增加不少（估计值）。。。50度时候3.3W增加到90度时候大概5W——额外增加了1.7W的静态功耗而且Krait 300算是晶体管比较少了的吧。要是大型的A15/A57上来，晶体管大大地，高温下漏电可能会更可怕？而且制程纳米数越小，漏电的影响会更大吧。。。所以S810这种必须保持低温，高温下静态漏电可能会迅速增加，直接就是个正反馈了。移动AP的晶体管越来越多，保持凉快还是很重要的。另外发现老外论坛有人对PC的U做了很详细的测试啊： http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fforums.anandtech.com%2Fshowthread.php%3Ft%3D2281195&urlrefer=f954a3ca0212befa45eef4c74bfce518 用的是i7-3770K 和 2600K可见高温下，静态功耗迅速增加降压后，静态功耗迅速降低。。。所以长续航还是得多降压，多降温—— 体质好，低压低功耗低温，长续航体质不好，高压高功耗高温，反过来高温导致功耗更大。。。

SIMD拷机程序ARM NEON/X86 SSE2版本 22nm Silvermont确实牛改完了。。。能跑了，自己配置上犯了个sb的错误 ARM用的128bit NEON X86用的128bit SSE2，因为最新的Atom Silvermont 核心也不支持AVX的，所以不能256bit 更不支持AVX512 测试平板Dell Venue 8 7840， Z3580 2.33GHz Intel确实牛，满载不降频的。。。核心最高也就65度不过跑ARM NEON代码，温度也差不多，看了下性能好像也没有大幅下降？说明I社新的二进制转换很有可能能把NEON SIMD代码转SSE2跑了。。。这个apk带有ARMv7和x86： http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1kT3Rmth&urlrefer=4caf2d8df06ae64542ca9e4e847f344b

SIMD 浮点拷机x86版求测试原来的apk是ARM neon的，做浮点的乘加运算，考虑到x86跑neon代码是经过二进制转换的，不能真正的使得SIMD单元满载，拷机并不彻底（可能压根就是非SIMD部分在跑）实际测试下来，Z3580 （DELL Venue 8 7840平板），跑neon代码大概53-55度核心因为Silvermont核心还是只支持SSE，不支持AVX/AVX512，所以还是按照SSE2 128bit跑的把128bit的neon改成了128bit的SSE2代码这个代码，以前在第一代ATOM（联想K800/K900， Z2460/Z2580上是能跑的）但是在Silvermont上（我的DELL Z3580），直接FC了。。。很诡异所以不知道是我的板子的问题，还是Silvermont的问题因此还请各位有x86机器的试试哈这个版本包括x86和armv7a的库 http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fpan.baidu.com%2Fs%2F1jGIMu6y&urlrefer=abb3e2a16e52997e6c6060c9524d0f2f 纯ARM库的

M9那个S810的A57好像降频很严重单核都不能满血。。。 Anandtech的初测出了，应该是升级了HTC的最新补丁不那么烫手了标称的2.0GHz的A57只有在跑分白名单才能达到，在非跑分应用中，单线程负载（注意是单线程）A57也只能跑到1.5-1.6GHz，并最终因为过热降频到1-1.2GHz。。。再次强调是单线程，因为很重要所以说三遍跑分白名单单线程能到2.0GHz，最后过热降频到1.7GHz

810的A57看来功耗不容乐观 Anandtech的初测出了，应该是升级了HTC的最新补丁不那么烫手了标称的2.0GHz的A57只有在跑分白名单才能达到，在非跑分应用中，单线程负载（注意是单线程）A57也只能跑到1.5-1.6GHz，并最终因为过热降频到1-1.2GHz。。。再次强调是单线程，因为很重要所以说三遍跑分白名单单线程能到2.0GHz，最后过热降频到1.7GHz

北京联通给2G/3G用户开4G权限了不用改套餐我的备胎学生沃派卡终于不用忍WCDMA了。。。

SanDisk推出SLC/TLC混合eMMC 其实跟SSD差不多，小容量的eMMC速度不如大容量的，有时候就是瓶颈了大容量么又太贵买不起用TLC么。。容量大但是性能太坑爹于是闪迪出来iNAND 7132，里面装了SLC和TLC TLC拿来从东西，SLC做缓存，在eMMC 5.0接口下，持续读取280M，持续写入125M 读3300 IOPS，写2800 IOPS 当然都是峰值啦不过里面的SLC缓存不到1个GB，写满了就得倒到TLC里了闪迪说测试了很多，这货是可靠了 7×24跑10年都不会丢数据 eMMC5.0的版本16/32/64G已经开卖（16G都TLC啊？） 128G年中开卖

IMG入门级新品GPU，以及视频编码器 G6020 用于入门级的移动设备，或者高端的可穿戴产品。。。每个shader core的FP32 ALU从2个阉割到1个，FP16还是4个 cluster里的shader pipe阉割到4个—— 原来是16个，算是0.25个USC了目标是用来带最多720p的屏幕，达到60fps 为了省电都用FP16好了支持OpenGL ES3.0 在28nm下面积大概是2.2 mm2 ---------------- 新款视频编码器，支持4K 60fps的H.264/H.265 10bit编码同码率下画质最好。。

A57版MT8173，600MHz GX6250 肯定是28nm

祝各位吧友春节快乐！羊年大吉，万事如意~ 高通吧感谢各位吧友在过去一年的支持~ 新的一年耍猴机都能第一批抢到，买到机器的CPU都是高体质用一下小豆梓的图

之前有人曝光过的MT8173 官方貌似是2GHz的2 A72 + 2 A53 img pvr GX6250 GPU 不过只剩下快照了之前有人曝光过是2A57+2A53 不过实际跑分里是A57r2 是不是A72约等于A57r2？跟A17 A12大法类似？

萌新求问有些同学为什么那么厉害我full combo都比不了他萌新第一次肝SM活动，想冲二档，对手分到了前排菊苣和俩刚加入活动的同学。。。结果那两个同学意外的强啊，都没有full combo，就把我打败了，连前排菊苣都被打败了。。为什么他们这么厉害？

关于A15/A57功耗问题的补充吧里人多了现在吐槽的点也越来越奇怪了。。。能不能看原文？人多了level也要跟着上去啊。。。首先做个更正： Anandtech并没有hack PMIC每一路的DC-DC buck 他们测的还是SOC的功耗利用开启1、2、3、4个CPU核心满载，或者1、2、3、4、5、6个GPU核心满载通过功耗增加的差值来算出CPU/GPU的功耗所以在CPU功耗是单纯的核心的功耗，不包括SCU、L2 Cache等功耗同样GPU功耗也只是 shader core的功耗，不包括GPU其他部分（scheduler等）的功耗而单个CPU/GPU满载的总SOC功耗里，包括2D显示单元、内存控制器等功耗。 1. 这两个测试，测试A7/A53， A15/A57的最大功耗应该用了自己的测试程序使得核心满载—— 不代表实际应用的性能/功耗* 5430的A15功耗确实降低很多 What jumps out immediately as out of the norm is the relatively low power consumption the 5430 is able to achieve. In the past we've seen A15 cores consume well north of 1.5W per core, something I've verified in the Exynos 5410 and Kirin 920. The combination of r3 A15 silicon IP and 20nm in the 5430 seems to have dramatically lowered the power consumption of the A15 to levels comparable to Qualcomm's Krait cores. It seems Samsung has gained a lot of experience with the A15 over the years and fed this back into the 5430, resulting in basically twice the power efficiency over past SoCs such as the 5420. 三星在A15上积累了很多经验：早期他们测试的5410，以及海思Kirin 920， A15功耗基本在1.5W 这次5430大概只有0.75W，工艺进步和三星经验的各种改良下图是5422对比5430，5422多了0.35W所以基本上可以看出 5410 28nm 1.5W 5420 28nm ？？ 5422 28nm 1.1W 5430 20nm 0.75W 与时俱进的啊，别老盯着5410看，同样28nm，设计也在进步的。当年5250多可怕。 2. 上面测的是“满载功耗”，至于测试的性能差异，我们并不知道他也没说跑的什么测试程序（熟悉PC的肯定知道，Haswell跑某些拷机测试温度/功耗比IVB高很多，因为某些瓶颈消除了里面ALU更容易喂饱，导致拷机功耗飙升。不能因为这个拷机功耗高，而日常HSW比IVB提升有限，就说HSW完蛋了）于是下面是 “日常应用”测试日常应用提升有限，但功耗增加也会有限然后看这个，就发现5433的能效跟5430其实差不多即完成同一项任务耗电差不多。实际上看XML解析测试，A57能效还比A15高点但总体上，因为A53能效比A7低不少，合起来能效还是不如A15/A7 但差的也不多所以不要问：为什么5433的note4续航不差啊，balabala了 2倍是满载测试功耗的差异 ×T760 这个也更正下单个shader core在0.55W的样子 500MHz 6个shader core 在3.3W 所以T760功耗应该是3.3W+ 不到3.8W，3.8W是整个SoC以上是T-Rex功耗 T760 Mahattan比T-Rex功耗更高，就算是3.5W吧 20nm Tegra X1： 1.5W 33fps A8X GX6850： 2.67W 33fps Mali-T760MP6： 3.5W 14fps 能效： Tegra X1： 1.78 A8X GX6850： 1 Mai-T760MP6： 0.32 ======== Maxwell 是 Mali-T760的5.6倍能效当然，T20比S20可能更好？工艺差距。 TX1 和 A8X都是T20。