纳罗斯之牙🌙 -
关注数: 4 粉丝数: 208 发帖数: 13,926 关注贴吧数: 5
AMD 申请了可配置多芯片 GPU 专利——图示显示三个芯片 如今,将复杂的芯片设计拆分为多芯片解决方案风靡一时。AMD 已经在其 CPU 和数据中心 GPU 中使用了多芯片设计,并且其当前一代RDNA 3 RX 7000 系列 GPU也采用了不太复杂的芯片。根据 2022 年 12 月 8 日提交并于本周发现的一项新专利,现在该公司似乎正在寻求为更广泛的应用生产更复杂的多芯片 GPU。“处理系统的图形处理单元 (GPU) 被划分为多个芯片(称为 GPU 芯片),这些芯片可配置为在第一种模式下作为单个 GPU 共同运行并与应用程序交互,在第二种模式下作为多个 GPU,”专利申请的摘要描述写道。 这显然不同于当前的 RDNA 3 架构,在 RDNA 3 架构中,AMD 使用中央 GCD(图形计算芯片)芯片来实现 GPU 的所有主要功能,并使用多个 MCD(内存缓存芯片)芯片来实现内存接口和缓存。CDNA 数据中心 GPU 更像这里描述的,具有多个计算/处理芯片。 该专利描述了一种相当具体的 GPU 实现,该实现具有三个 GPU 芯片组和一个多媒体芯片。每个 GPU 芯片组由一个前端芯片和着色器引擎芯片组成(专利显示了三个 SE 芯片,但实际数量可能不同)。这种多芯片 GPU 可以以三种模式运行: 第一种模式,单 GPU:所有 GPU 芯片作为一个统一的 GPU 协同工作,共享资源并协同处理任务。在此模式下,一个前端芯片通常负责 GPU 内所有着色器引擎芯片的命令调度。这基本上就是传统 GPU 的工作方式。 第二种模式,多 GPU:GPU 芯片被分成不同的组,每个组都作为独立的 GPU 运行。每个组都有自己的前端芯片,负责为其相关的着色器引擎芯片调度任务。 第三种模式,混合配置:此模式提供灵活的配置,其中一些 GPU 芯片作为单个 GPU 运行,而另一些则作为独立 GPU 运行。 AMD 的数据中心 GPU 设计已经分拆了好几年,该专利最有可能首先针对多芯片数据中心 GPU,但也可能扩展到客户端 GPU。AMD 未来可能希望分拆其客户端 GPU 的原因有几个。 首先,随着高 NA EUV 光刻技术的出现及其减半的曝光场(或光罩尺寸),多芯片设计将变得更加普遍。鉴于 AMD 在多芯片设计方面已经拥有足够的经验,多芯片 GPU 可能是一个可行的选择。 其次,由于大型单片芯片的流片和生产成本过高,采用多芯片设计来打造客户端 GPU 是 AMD 降低成本的好方法。它已经在 GCD/MCD 芯片中部分实现了这一点,但这是目前客户端芯片的第一次迭代,我们预计 AMD 将在未来的设计中继续走这条路。芯片组还可以将着色器引擎和主要计算硬件放在前沿节点上,而前端引擎则采用更老、更便宜的工艺技术。 有了多个芯片组,将 GPU 性能从入门级解决方案扩展到高端产品就变得更加容易了。事实上,AMD 的摘要描述是这么说的: “通过将 GPU 划分为多个 GPU 芯片组,处理系统可以根据操作模式灵活且经济高效地配置一定数量的活动 GPU 物理资源,”专利声称。“此外,可配置数量的 GPU 芯片组被组装成单个 GPU,这样就可以使用少量的流片来组装具有不同数量 GPU 芯片组的多个不同 GPU,并且可以用实施不同代技术的 GPU 芯片组构建多芯片 GPU。” 同样,AMD 已经声称在 RDNA 3 中使用了 GPU 芯片组,但这显然代表着将功能分解到不同芯片中的水平又迈进了一步。我们在 Ryzen CPU 上看到了类似的情况,第一代小芯片更像是一个概念验证,后续设计更好地分离了功能,以实现最大的性能和可扩展性。AMD 尚未完成 GPU 小芯片的开发,我们怀疑 GPU 领域的大多数参与者最终都会采取类似的方法。
MLID终于放了点有用的东西 我这边直接转VCZ的文章了: 这位 YouTuber 分享了两张从 AMD 内部演示文稿中摘录的幻灯片,最初并不打算供公众使用。这些幻灯片提供了有关下一代 Zen 架构的最新进展和策略,揭示了一些基本细节,例如预期的 IPC 改进、支持的功能和核心数量。 路线图似乎经历了轻微的时间调整。然而,重要的是要记住,这些微架构涵盖广泛的产品,包括数据中心和面向消费者的系列。因此,发布时间表可能不仅反映了 AMD 对 Ryzen 8000 及更高版本的意图,还包含了对 EPYC 产品的考虑。 Nirvana Zen5 (1H 2024) 概述的新 4nm/3nm 微架构包括专为 Ryzen 8000 系列设计的 Nirvana (Zen5)。根据幻灯片,预计 IPC 将增长 10% 至 15%。IPC 可能仍会增加,因为演示仅显示了尚未经过零售芯片验证的目标。此外,该幻灯片还列出了 48K 数据缓存、8 个宽调度、6 个 ALU、FP-512 变体和一个新的低功耗核心选项。 更有趣的是,据说它提供了 16 核复合体。后者可能是专门使用 Zen5c 变体的选项。提醒一下,Strix Point APU将在一个芯片中使用两种子架构。换句话说,如果 AMD 走这条路(例如 8x Zen5 + 16x Zen5c),AM5 平台上的游戏玩家应该期待最多 16 核 Zen5 设计或 32 核 Zen5c,或两者的混合。 Morpheus Zen6 (2H 2025) Morpheus 是 Zen6 的微架构代号。现在预计将采用3nm和2nm工艺技术,AMD的目标是比Nirvana达到10%的IPC提升。AMD 计划推出用于 AI/ML 算法加速的 FP16 指令,以及新的内存分析器。在核心复杂度方面,AMD 将核心数量增加到 32 个,这又应该是指 Zen6c,而不是 Zen6。 MLID 称,Zen6 微架构据称将通过新的封装技术提供与 Zen2 类似的芯片布局重新设计。虽然尚未得到证实,但据称对于 Zen6,AMD 可能会将 CCD 堆叠在 IOD(输入/输出接口芯片)之上。这将是 AMD 芯片堆叠的分解小芯片设计方法的重大转变。目前尚待确认的是Zen6是否会采用AM5接口。
LLM初创公司采用AMD GPU,表示ROCm与Nvidia的CUDA平台“旗鼓相当 这个标题字数限制简直了,我都删了一堆空格还卡一个句尾引号没发出来 http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.crn.com%2Fnews%2Fcomponents-peripherals%2Fllm-startup-embraces-amd-gpus-says-rocm-has-parity-with-nvidia-s-cuda-platform&urlrefer=cb6730c2805ff8bd00e21925da00c618 一家专注于微调大型语言模型的初创公司透露,它已经“秘密地在 100 多个”AMD Instinct MI200 系列 GPU 上运行,并表示该芯片设计商的 ROCm 软件平台“已经实现了与 Nvidia 针对此类模型的主导 CUDA 平台的软件平价”。 总部位于加利福尼亚州帕洛阿尔托的初创公司 Lamini 在周二的一篇博客文章中披露了这一消息,当时 AMD 对竞争对手 Nvidia 发起了迄今为止最大规模的攻势,Nvidia 的 GPU 是许多大型语言模型 (LLM) 和其他类型的主要引擎。今天的生成式人工智能应用。 Lamini 由机器学习专家 Sharon Zhou 和前 Nvidia CUDA 软件架构师 Greg Diamos 创立,是一家小型初创公司,其平台允许企业使用专有数据将 LLM 微调和定制为私有模型。该初创公司声称,有超过 5,000 家公司在候补名单上,等待使用其几个月前开放的平台。 Lamini 在博客文章中表示,它已经在自己的基础设施上运行了 100 多个 AMD Instinct MI200 GPU,该初创公司通过其新发布的 LLM Superstation 提供这些基础设施,可在云端和本地使用。 据这家初创公司称,这使得 Lamini 成为“唯一在生产中专门在 AMD Instinct GPU 上运行的 LLM 平台”,并表示运行 Meta 的 700 亿参数 Llama 2 模型的计算成本比运行 Meta 的 700 亿参数 Llama 2 模型的计算成本便宜 10 倍。在 Amazon Web Services 上执行此操作。 Lamini 表示,对 AMD Instinct GPU 的依赖是一个差异化因素,部分原因在于它们是可用的,这与 Nvidia 的旗舰 A100 和 H100 GPU 不同,后者由于运行 LLM 和其他类型的生成人工智能应用程序的基础设施的高需求而出现短缺。 Lamini 的首席技术官 Diamos 称赞 ROCm(AMD 用于在 GPU 上编码软件的软件堆栈)与 Nvidia 的 LLMS CUDA 平台“实现了软件对等”。 他表示,该初创公司选择2021 年推出的AMD 旗舰产品 Instinct MI250 GPU作为其平台的基础,“因为它运行我们客户所需的最大模型,并集成了微调优化。” Diamos 补充说,MI250 的 128 GB 高带宽内存容量使 Lamini 能够“运行比 Nvidia 的 A100 集群更低的软件复杂性的更大模型”。 根据 Lamini 运行的测试,AMD 功能较弱的 Instinct MI210 GPU 在通用矩阵-矩阵乘法 (GEMM) 方面实现了每秒高达 89% 的理论峰值万亿次浮点运算,在 ROCM 的 hipMemcpy 功能方面实现了高达 70% 的峰值带宽。 “这表明 AMD 的库有效利用了关键基元的 MI 加速器的原始吞吐量。凭借高效运行的基本构建块,ROCm 为微调 LLM 等高性能应用程序提供了坚实的基础。”Diamos 在博客文章中写道。 据 Lamini 称,AMD 正在利用这家初创公司的平台,由AMD自己的员工“针对众多用例”来微调大型语言模型
英特尔因向PC制造商付款阻止AMD进入市场而被欧盟罚款4亿美元 http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.neowin.net%2Fnews%2Feu-fines-intel-400-million-for-blocking-amds-market-access-through-payments-to-pc-makers%2F&urlrefer=73d4cae499842b239ac2a248344f7177 欧盟委员会因 2002 年至 2007 年间通过赤裸裸的限制阻碍竞争对手进入市场而对英特尔处以 4 亿美元(3.76 亿欧元)的罚款。此次罚款是在一场长期的反垄断法庭斗争之后进行的,该斗争可追溯到 2009 年,当时欧盟委员会最初对英特尔处以罚款滥用市场支配地位造成的损失达创纪录的 11.3 亿美元。 虽然英特尔的一些行动(例如隐藏回扣)因缺乏损害证据而在上诉中被撤销,但委员会维持英特尔向 PC 制造商付费以推迟或限制使用 AMD 处理器的产品。 具体来说,委员会列举了一些例子,其中英特尔在 2002 年至 2005 年期间向惠普付费,要求其不得通过直接渠道向中小型企业销售采用 AMD 技术的商用 PC。它还付钱给宏碁,将基于AMD的笔记本电脑的推出时间从2003年底推迟到2004年初。英特尔还付钱给联想,将AMD笔记本电脑的推出时间推迟六个月。 根据普通法院的说法,通过对付款设定这些条件,英特尔能够限制 AMD 台式机在关键细分市场构成的竞争威胁。 欧盟委员会表示,新的 3.76 亿欧元罚款反映出英特尔在近 5 年内阻碍了其主要竞争对手在 x86 CPU 市场的发展和扩张。 由于这些限制,计算机制造商停止、推迟或限制了基于竞争对手芯片组的产品的商业化,这些产品是他们积极规划的并且有消费者需求。 因此,英特尔的赤裸裸的限制剥夺了客户本来可以拥有的选择,对市场竞争产生了不利影响。 然而,斗争尚未结束,委员会已就驳回案件中的回扣部分提出上诉。如果上诉法院裁定回扣也违反了竞争法,英特尔仍可能面临更多罚款。由于英特尔没有对该裁决提出上诉,3.76 亿欧元的罚款现已确定。 欧盟才是人类之光好吧
1 下一页