米线山️之父 路西法not
关注数: 127 粉丝数: 210 发帖数: 13,276 关注贴吧数: 541
rx7000系ai只有华为的1/32,难怪跑不动FSR4 难怪华为鸿蒙5.0 6.0手机平板电脑两三端都能用上ai超分超帧,用npu都能做到 刷b乎看到的 RDNA3除了翻倍 fp32浮点计算,AMD 还将矩阵 (AI) 吞吐量提高了一倍,并且 AI 矩阵加速器共享许多shader执行资源。AMD不像NVIDIA,有单独tensor core单元,用于矩阵乘运算(家里毕竟不富裕啊,要节俭度日)。在RDNA3 上,我们看到的还是利用专有的WMMA指令,以vector方式完成矩阵运算。 矩阵运算,拆解到底层运算就是乘累加运算,针对fp16/bf16/int8,支持64个dot2操作,也就是wave64。dot2 其实可以看成是下面两个矩阵乘: A[lbk]lbk[rbk]1x2[lbk]rbk[rbk]*B[lbk]lbk[rbk]2x1[lbk]rbk[rbk] = C[lbk]lbk[rbk]1x1[lbk]rbk[rbk] 也就是 1x2x1 = 2MAC / thread, 总共64个,也就是128个MAC/cycle,256 ops/cycle。 对比华为Davinci Cube架构,可以用一条指令完成两个16*16矩阵的相乘运算(标记为16^3,也是Cube这一名称的来历),等同于单cycle进行了16^3=4096个MAC运算,8192 ops/cycle。 从资源使用上,AMD只使用了1/32,代价是为了得到两个16*16矩阵的执行结果,需要连续执行32个cycle。从能效上肯定是输的。当然从商业角度讲,RDNA3 作为主打游戏卡来说,对AI计算的支持已然是非常大的提升了,毕竟那些买了NV显卡的小伙伴来说是额外付了tensor core 的钱,可能有些人会反驳,NV DLSS技术可以充分发挥tensor core的价值,但我相信大多数游戏是用不到这个技术的。 华为达芬奇架构的框图。从大的结构上看,数据从L1预取到L0后,依次发射到Cube中进行2D matrix运算,结果写到buffer C中,可以通过Vector单元进行卷积和全连接之后的后处理运算(operation fusion,和TPU以及NVDLA的结构类似),然后写回到United Buffer中等待下一次调度。最下方是控制通路,指令经Icache取得后,译码分发到Scalar,Vector和MTE三个单元中进行对应的运算。整体数据通路和寒武纪的“DINANAO”是很类似的,通过显式的内存管理调度数据进入主运算cube或后处理单元,各buffer内部空间划分出ping-pong存储块,保证数据存取的连续性。下方的控制加上scalar和vector运算,相当于集成了一个通用CPU在其中,这样的话支持任何算法都没有问题了。scalar负责控制流和简单运算,vector来解决MAC矩阵所不擅长的pooling,activation等操作,这几部分相互配合补充,很好的实现对AI算法全场景的支持。可以明显看出,最核心的运算还是在cube,主要面向流行的深度学习算法,在其他AI算法上使用vector和scalar运算,算力比cube低不少,因此这类算法的性能是低于SIMT结构的GPU的。
7000系ai只有华为的1/32,难怪跑不动FSR4 难怪华为鸿蒙5.0 6.0手机平板电脑两三端都能用上ai超分超帧,用npu都能做到 刷b乎看到的 RDNA3除了翻倍 fp32浮点计算,AMD 还将矩阵 (AI) 吞吐量提高了一倍,并且 AI 矩阵加速器共享许多shader执行资源。AMD不像NVIDIA,有单独tensor core单元,用于矩阵乘运算(家里毕竟不富裕啊,要节俭度日)。在RDNA3 上,我们看到的还是利用专有的WMMA指令,以vector方式完成矩阵运算。 矩阵运算,拆解到底层运算就是乘累加运算,针对fp16/bf16/int8,支持64个dot2操作,也就是wave64。dot2 其实可以看成是下面两个矩阵乘: A[lbk]1x2[rbk]*B[lbk]2x1[rbk] = C[lbk]1x1[rbk] 也就是 1x2x1 = 2MAC / thread, 总共64个,也就是128个MAC/cycle,256 ops/cycle。 对比华为Davinci Cube架构,可以用一条指令完成两个16*16矩阵的相乘运算(标记为16^3,也是Cube这一名称的来历),等同于单cycle进行了16^3=4096个MAC运算,8192 ops/cycle。 从资源使用上,AMD只使用了1/32,代价是为了得到两个16*16矩阵的执行结果,需要连续执行32个cycle。从能效上肯定是输的。当然从商业角度讲,RDNA3 作为主打游戏卡来说,对AI计算的支持已然是非常大的提升了,毕竟那些买了NV显卡的小伙伴来说是额外付了tensor core 的钱,可能有些人会反驳,NV DLSS技术可以充分发挥tensor core的价值,但我相信大多数游戏是用不到这个技术的。 华为达芬奇架构的框图。从大的结构上看,数据从L1预取到L0后,依次发射到Cube中进行2D matrix运算,结果写到buffer C中,可以通过Vector单元进行卷积和全连接之后的后处理运算(operation fusion,和TPU以及NVDLA的结构类似),然后写回到United Buffer中等待下一次调度。最下方是控制通路,指令经Icache取得后,译码分发到Scalar,Vector和MTE三个单元中进行对应的运算。整体数据通路和寒武纪的“DINANAO”是很类似的,通过显式的内存管理调度数据进入主运算cube或后处理单元,各buffer内部空间划分出ping-pong存储块,保证数据存取的连续性。下方的控制加上scalar和vector运算,相当于集成了一个通用CPU在其中,这样的话支持任何算法都没有问题了。scalar负责控制流和简单运算,vector来解决MAC矩阵所不擅长的pooling,activation等操作,这几部分相互配合补充,很好的实现对AI算法全场景的支持。可以明显看出,最核心的运算还是在cube,主要面向流行的深度学习算法,在其他AI算法上使用vector和scalar运算,算力比cube低不少,因此这类算法的性能是低于SIMT结构的GPU的。
7000系ai只有华为的1/32,难怪跑不动FSR4 难怪华为鸿蒙5.0 6.0手机平板电脑两三端都能用上ai超分超帧,用npu都能做到 刷b乎看到的 RDNA3除了翻倍 fp32浮点计算,AMD 还将矩阵 (AI) 吞吐量提高了一倍,并且 AI 矩阵加速器共享许多shader执行资源。AMD不像NVIDIA,有单独tensor core单元,用于矩阵乘运算(家里毕竟不富裕啊,要节俭度日)。在RDNA3 上,我们看到的还是利用专有的WMMA指令,以vector方式完成矩阵运算。 矩阵运算,拆解到底层运算就是乘累加运算,针对fp16/bf16/int8,支持64个dot2操作,也就是wave64。dot2 其实可以看成是下面两个矩阵乘: A[lbk]1x2[rbk] * B[lbk]2x1[rbk] = C[lbk]1x1[rbk] 也就是 1x2x1 = 2MAC / thread, 总共64个,也就是128个MAC/cycle,256 ops/cycle。 对比huawei Davinci Cube ai架构,可以用一条指令完成两个16*16矩阵的相乘运算(标记为16^3,也是Cube这一名称的来历),等同于单cycle进行了16^3=4096个MAC运算,8192 ops/cycle。 从资源使用上,AMD只使用了1/32,代价是为了得到两个16*16矩阵的执行结果,需要连续执行32个cycle。从能效上肯定是输的。当然从商业角度讲,RDNA3 作为主打游戏卡来说,对AI计算的支持已然是非常大的提升了,毕竟那些买了NV显卡的小伙伴来说是额外付了tensor core 的钱,可能有些人会反驳,NV DLSS技术可以充分发挥tensor core的价值,但我相信大多数游戏是用不到这个技术的。 华为达芬奇架构的框图。从大的结构上看,数据从L1预取到L0后,依次发射到Cube中进行2D matrix运算,结果写到buffer C中,可以通过Vector单元进行卷积和全连接之后的后处理运算(operation fusion,和TPU以及NVDLA的结构类似),然后写回到United Buffer中等待下一次调度。最下方是控制通路,指令经Icache取得后,译码分发到Scalar,Vector和MTE三个单元中进行对应的运算。整体数据通路和寒武纪的“DINANAO”是很类似的,通过显式的内存管理调度数据进入主运算cube或后处理单元,各buffer内部空间划分出ping-pong存储块,保证数据存取的连续性。下方的控制加上scalar和vector运算,相当于集成了一个通用CPU在其中,这样的话支持任何算法都没有问题了。scalar负责控制流和简单运算,vector来解决MAC矩阵所不擅长的pooling,activation等操作,这几部分相互配合补充,很好的实现对AI算法全场景的支持。可以明显看出,最核心的运算还是在cube,主要面向流行的深度学习算法,在其他AI算法上使用vector和scalar运算,算力比cube低不少,因此这类算法的性能是低于SIMT结构的GPU的。
A卡R3的ai只有华为的1/32,难怪跑不动FSR4 难怪华为鸿蒙5.0 6.0手机平板电脑两三端都能用上ai超分超帧,用npu都能做到 undefined RDNA3除了翻倍 fp32浮点计算,AMD 还将矩阵 (AI) 吞吐量提高了一倍,并且 AI 矩阵加速器共享许多shader执行资源。AMD不像NVIDIA,有单独tensor core单元,用于矩阵乘运算(家里毕竟不富裕啊,要节俭度日)。在RDNA3 上,我们看到的还是利用专有的WMMA指令,以vector方式完成矩阵运算。 矩阵运算,拆解到底层运算就是乘累加运算,针对fp16/bf16/int8,支持64个dot2操作,也就是wave64。dot2 其实可以看成是下面两个矩阵乘: A[lbk]1x2[rbk] * B[lbk]2x1[rbk] = C[lbk]1x1[rbk] 也就是 1x2x1 = 2MAC / thread, 总共64个,也就是128个MAC/cycle,256 ops/cycle。 对比huawei Davinci Cube ai架构,可以用一条指令完成两个16*16矩阵的相乘运算(标记为16^3,也是Cube这一名称的来历),等同于单cycle进行了16^3=4096个MAC运算,8192 ops/cycle。 从资源使用上,AMD只使用了1/32,代价是为了得到两个16*16矩阵的执行结果,需要连续执行32个cycle。从能效上肯定是输的。当然从商业角度讲,RDNA3 作为主打游戏卡来说,对AI计算的支持已然是非常大的提升了,毕竟那些买了NV显卡的小伙伴来说是额外付了tensor core 的钱,可能有些人会反驳,NV DLSS技术可以充分发挥tensor core的价值,但我相信大多数游戏是用不到这个技术的。 华为达芬奇架构的框图。从大的结构上看,数据从L1预取到L0后,依次发射到Cube中进行2D matrix运算,结果写到buffer C中,可以通过Vector单元进行卷积和全连接之后的后处理运算(operation fusion,和TPU以及NVDLA的结构类似),然后写回到United Buffer中等待下一次调度。最下方是控制通路,指令经Icache取得后,译码分发到Scalar,Vector和MTE三个单元中进行对应的运算。整体数据通路和寒武纪的“DINANAO”是很类似的,通过显式的内存管理调度数据进入主运算cube或后处理单元,各buffer内部空间划分出ping-pong存储块,保证数据存取的连续性。下方的控制加上scalar和vector运算,相当于集成了一个通用CPU在其中,这样的话支持任何算法都没有问题了。scalar负责控制流和简单运算,vector来解决MAC矩阵所不擅长的pooling,activation等操作,这几部分相互配合补充,很好的实现对AI算法全场景的支持。可以明显看出,最核心的运算还是在cube,主要面向流行的深度学习算法,在其他AI算法上使用vector和scalar运算,算力比cube低不少,因此这类算法的性能是低于SIMT结构的GPU的。
谈ARM/MIPS的架构许可模式,IP核授权模式,及其商业规则 【转】谈谈ARM/MIPS的Archi-license架构许可模式、IP core授权模式,及其商业规则 Morris.Zhang 2022 年度新知答主 IP授权的三种类型: IP授权的商业模式: Architectural License许可模式: IP授权的追溯和保护措施: 总结: 讨论ARM Architectural License之前,可以了解一段Apple作为ARM联合创始股东的历史,1990年左右Apple+Acorn+VLSI公司共同出资组建了ARM,成为原始联创股东组合(ARM前身是Acorn),Apple占股份比例43%左右,并且双方的技术协同很早就发生在苹果Newton PDA产品上(使用ARM芯片),当年乔布斯回归时正值Apple低谷期,于是转卖了ARM原始股份。这份渊源对于理解两者的后续合作关系有帮助。 IP授权的三种类型: 对于数字逻辑电路的IP授权,可以分为软核、固核和硬核三类IP: 软核授权:通常是指逻辑综合前的VHDL代码形式的IP(加密版),仅经过了RTL级设计优化和功能验证,通常是以HDL文本(比如.v文件)形式交付用户,它不包含任何物理实现信息,对工艺不敏感,获得授权后需要自己做物理设计/仿真,综合出正确的门级网并进行后续结构设计(通常借助EDA工具将多个软核IP及自主设计电路合为一体),再去流片测试/后仿验证,最后投产;厂商可以进一步对微架构进行修改/优化(比如可选部分位宽/FIFO深度/AXIOT/reg接口形式等),但不得二次销售优化过的IP,但可以任意营销其最终制品(包含芯片、开发样版、完整系统等);软核优点是源代码灵活、在功能一级可以重新配置,可以灵活选择目标制造工艺、对用户来讲可移植性强、设计周期短、成本低;其缺点是物理实现性能不稳定/不全面,存在设计风险,且IP软核的产权保护难度较大,ARM会有选择性的给予软核IP授权。 硬核授权:直接交付数字电路(如处理器核心)的门极电路版图(最终完成布局布线的掩模级电路,即GDSII版图文件),并且也会一并提供抽象模拟测试以及相关的测试程序,整体授权包是基于物理描述,是以电路物理结构掩模版图和全套工艺文件的形式提供给用户,并且已经通过了特定Fab产线的工艺节点验证了可行性,功能/性能/集成度/可靠性/投片经济性等等因素都能保证预期效果,逻辑功能十分确定,工艺十分确定且固化;获得硬核授权后基本可以直接测试和投产。其缺点是IP硬核与制造工艺固化相关,难以转移到新的工艺或者集成到新的结构中去,是不可以重新配置的;硬核IP禁止修改的特点使其复用/重用有一定的困难,因此只能用于某些特定用途,影响设计使用范围;但是IP硬核的知识产权保护最容易。 固核授权:通常是以代码综合后的门级电路网表的形式提供,提供除了完成IP软核所有的设计之外(实现功能模块的RTL代码之外),还完成了门级电路综合和时序仿真等设计环节(包括可预布线特定信号或分配特定的布线资源,对于时序严格的IP核尤其有用);因此,固核可以理解为不仅包括软核程序代码,还包括“程序员模块设计意图与硬件物理实现之间的designrules”。固核的灵活性和成功率介于IP软核和IP硬核之间,是一种折中的类型;相比软核IP,固核的设计灵活性稍差,但在可靠性上有较大提高,是IP授权的主流形式之一;以及因为门级网表基本没法看懂,所以IP安全性相对更好。 IP授权的商业模式:ARM成立之初的早期生意是比较经典的出售IP core licenses+roality%的做法,比如一个Fabless团队购买了ARM的IP cores(如一些流行微架构 Cortex-A53/A72 core/Mali-G72 GPU core等),之后可以把这部分优质且经过市场考验的成熟电路集成到自己的封装或SoC当中。期间可以修改core的配置,但不能修改core本身的设计和公版指令兼容性。这种模式的技术门槛不高,很多缺乏核心自研能力的Fabless也可以低成本的快速出品。
感觉阿b评论区和贴吧充满了帽子大战和动机揣测 如题 发帖帮小米说好话顺便复读一下华为做过的恶心人的事情,那你一定是发帖机器人,立马就有人把米猴的帽子扣上来了,哪管你现在用的是不是小米手机,有没有买过多少小米的东西,这些都不管,反正你一定是收了小米的黑钱来黑华为 反过来也成立 发帖骂ns,立马就有人把锁狗的帽子扣上来了 都都不用管你有没有psn账号的 有一个人发了个视频吹ns2,底下一堆人说他一定是收了任天堂黑钱/认知不行/长得看起来就不太聪明,你去反驳底下那些人身攻击的人,那你一定就是在舔任,是任豚,任地域最忠实的孝子 我问ds结果他这么说 这种现象确实是当前中文网络环境中令人疲惫的普遍问题——“立场站队”和“动机揣测”正在快速取代理性讨论。这种环境让人沮丧,但我们可以试着理解其根源并找到应对方式: 核心问题 1. 身份政治替代观点讨论 • 人们不再关注你说了什么(观点本身、论据是否合理),而是先把你划入某个阵营(米粉/花粉、索狗/任豚等)。一旦贴上标签,你的所有言论都会被解读为“为阵营服务”。 2. 动机论取代事实核查 • 无法或不愿反驳你的观点时,最简单的方式就是质疑你的动机(“收钱办事”、“是水军”、“是孝子”、“认知不行”)。这直接绕过了对事实和逻辑的讨论。 3. 群体对立与情感宣泄 • 在高度情绪化的对立氛围中(如手机圈、主机圈),评论区和贴吧很容易成为群体宣泄情绪、寻找认同感和攻击“敌方”的战场。扣帽子是最快速找到“敌人”并加以攻击的方式。 4. 信息茧房与信任缺失 • 长期处于对立信息环境中,用户对不同立场的人天然不信任,默认对方“非蠢即坏”。 5. 低成本攻击 • 扣帽子、人身攻击的成本远低于摆事实、讲道理、进行理性辩论。 平台为何尤其严重? • 流量驱动 • 极端、对立、情绪化的内容天然更容易引发互动(点赞、评论、转发),平台算法(即使不主动鼓励)也会让这类内容获得更多曝光。 • 匿名性与低门槛 • 发言成本低,攻击者承担后果的风险小。 • 群体极化效应 • 在特定社区(如某个贴吧、某个视频评论区),某一立场可能占据绝对主流,形成回音壁,不同声音会被迅速压制或攻击。 应对策略 保护自己 1. 认清现实,降低期待 • 首先要明白,在高度对立的公共评论区进行深度理性讨论是极其困难的。不要指望能说服那些只想扣帽子的人。 2. 明确表达目的 • 如果你想讨论: • 聚焦事实与逻辑 • 清晰陈述你的观点和支撑的论据(数据、案例、可验证的信息)。开头可以强调“仅讨论事实/产品/事件本身”。
麒麟8020的gpu是真的逆天,华为自研vulkanapi? 之前马良910刚出来时也就人物建模有问题 ,这次给我干异次元了 适配有问题也正常。。但是麒麟8020规格依旧一点诚意都没有,高端性能上不去也就算了,可以理解,中端好歹撑住啊,真要大刀砍 麒麟8020是个什么鬼 gpu920c支持vulkan1.3275,但跑不了极客湾的赛博房间 920c读取出来的是支持vulkan1.3275,结果跑不了赛博房间 ,然后现在的游戏还没一个优化正常的,不是画质只能开最低就是一堆渲染bug,然后clpeak还跑不了,不支持opengl吗 ,到底在搞什么? ,自研的吗? vulkan本身就是开放标准,华为想要添加自主api的话那就必须要公开才行,虽然这不是强制的,但是公开的话利大于弊,不公开的话,那么自研API基本不会有游戏厂家适配,公开的话,大家一起用,游戏厂家才会适配优化,华为才能吃到自研架构红利。 各家驱动vulkan版本一样不代表他们都全支持了各种扩展,比如8e用系统的vulkan驱动不用开源驱动就能跑很多转译游戏,天玑就差很多 vk和OpenGL一样,各家可以提交各种专属自己的GPU的扩展,有兼容性问题很正常 华为GPU的最大问题就是特性支持不行,新架构特性支持兼容太烂了。出现什么图形BUG纯属正常。 这也是国产GPU架构的共通问题。摩尔线程号称性能达到3060呢。但是玩游戏能跟3060比么。就是国产GPU架构兼容和特性支持跟国外的没得比。
如果华为能够使用台积电3nm工艺,麒麟9030性能如何? 知乎大佬说网上看到有人做了一个简单的计算,计算现在主流手机GPU每核心/每GHz下az的帧率。 这个测算图一乐,因为多核心会有衰减问题,华为自己的2cu马良920性能就高于4cu马良920的一半。 但即便考虑到这种衰减,马良920也是优秀 的GPU架构。3nm下马良920可以做到现在 的3倍的规模,以及1.5倍的主频。 在这种估算下,其实是应该能追上天玑940 O+附近的性能的。换句话说,马良920这个架构本身落后的相对较少。 不过马良920还有缺少一些特性,另外在fp32算力上可能会稍显逊色,这些问题都可 以通过后续迭代解决。 在这种情况下,我们也可以预计,只要像苹果m系列芯片那样堆个20核心或者40核心, 华为的芯片游戏性能也可以非常强悍,M3Pro跑冰汽时代全高1440p压力不 大。 如果麒麟芯片使用3nm,而且舍得给140mm2,那CPU性能应该会和联发科相仿、GPU性能则可以更高一截(可以堆 16cu),录像性能则是有可能和上代或者上上代的iPhone相媲美。 不过距离这一天还要一段时间,自主工艺追上台积电预计可能要5年时间。 但这也有一点参考价值,可以了解架构之间的差距,毕竟马良受限于工艺没法直接比。 至少我们可以确定一点:马良920的水平很大程度上是被工艺限制了,麒麟的设计没有那么落后。 假如华为有3nm,那GPU性能应该也会是接近主流水平。
“当任天堂提出下一代主机要求时,全行业陷入短暂的沉默” 上海证劵报《南极光潘连兴:撬开游戏主机巨头供应链》 6月5日,任天堂Switch 2在全球多个国家和地区正式发售。作为任天堂时隔8年推出的新一代游戏主机产品,Switch 2在预售阶段就获得了积极的市场反响,带动相关产业链受到关注。 “为了这一刻,我们准备了将近5年。”作为Switch 2背光源模组产品的生产商,南极光董事长潘连兴近日在接受上海证券报记者采访时表示,目前公司产品已实现规模化稳定交付,预计该业务将对公司的发展形成积极影响。 历时近5年的“鏖战” “南极光为什么可以从全球供应链体系中脱颖而出,获得任天堂的青睐?”面对记者的疑问,潘连兴没有正面回答。 稍作停顿,他开口道:“我们只是在同行选择‘投降’时,选择了死磕。”简短的话语中,难掩技术人特有的执拗。 2020年,当任天堂提出下一代游戏机需实现0.3x毫米超薄导光板,功耗降低25%,并通过6000次微跌测试的极限要求时,全球背光行业陷入短暂的沉默。 彼时,行业普遍水准停留在0.5毫米厚度,任天堂的指标需求意味着要完成技术跨代升级。“评估后,成熟的供应链基本上都选择了放弃,只有南极光和另一家公司接下了挑战。”潘连兴认为,对于南极光而言,这是一次难得的机遇,“做别人做不到的,才能跳出红海”。 不过,潘连兴也没有预料到,这会是一场近5年的技术鏖战。 2021年,南极光研发实验室,第一片0.3x毫米导光板样片在3D显微镜下暴露出微结构转写率不达标时,整个团队陷入了沉寂。 任天堂的测试标准如同悬顶之剑——整机需完成六面体跌落测试,每面1000多次,共计6000多次冲击,且内部异物直径必须控制在0.06毫米以内。此外,导光板的厚度每降低0.01毫米,光学设计、材料应力、散热性能就会形成新的矛盾体。 “良率最初只有5%,做多少亏多少。”时至今日,再提起当时的困境,潘连兴仍会下意识地将手抬至空中,一边说一边比划着。 为攻克超薄导光板的光学稳定性,南极光团队进行了上百次工艺调整,甚至自研专用设备。 供应链同样面临着严峻的考验,当导光板厚度从0.5毫米降至0.3x毫米,原材料供应商的退货率飙升。潘连兴透露,为了说服供应商持续投入,南极光主动分担开发风险。这种“技术同盟”的策略最终换来关键突破。 2024年5月,首批合格品下线,南极光创造了意外之喜,产品良率突破任天堂数十年来的最高纪录,模组整体不良率控制在0.4%以内。 那些诞生于量产前夕的新型设备,也为南极光筑起了一道核心技术壁垒。 以创新为矛持续突破 对南极光而言,这场技术突围绝非偶然,是公司多年如一日持续投入研发、不断优化创新的必然结果。
首页 1 2 3 4 下一页