level 13
纳罗斯之牙🌙
楼主
这个标题字数限制简直了,我都删了一堆空格还卡一个句尾引号没发出来![[黑线]](/static/emoticons/u9ed1u7ebf.png)
https://www.crn.com/news/components-peripherals/llm-startup-embraces-amd-gpus-says-rocm-has-parity-with-nvidia-s-cuda-platform
一家专注于微调大型语言模型的初创公司透露,它已经“秘密地在 100 多个”AMD Instinct MI200 系列 GPU 上运行,并表示该芯片设计商的 ROCm 软件平台“已经实现了与 Nvidia 针对此类模型的主导 CUDA 平台的软件平价”。
总部位于加利福尼亚州帕洛阿尔托的初创公司 Lamini 在周二的一篇博客文章中披露了这一消息,当时 AMD 对竞争对手 Nvidia 发起了迄今为止最大规模的攻势,Nvidia 的 GPU 是许多大型语言模型 (LLM) 和其他类型的主要引擎。今天的生成式人工智能应用。
Lamini 由机器学习专家 Sharon Zhou 和前 Nvidia CUDA 软件架构师 Greg Diamos 创立,是一家小型初创公司,其平台允许企业使用专有数据将 LLM 微调和定制为私有模型。该初创公司声称,有超过 5,000 家公司在候补名单上,等待使用其几个月前开放的平台。
Lamini 在博客文章中表示,它已经在自己的基础设施上运行了 100 多个 AMD Instinct MI200 GPU,该初创公司通过其新发布的 LLM Superstation 提供这些基础设施,可在云端和本地使用。
据这家初创公司称,这使得 Lamini 成为“唯一在生产中专门在 AMD Instinct GPU 上运行的 LLM 平台”,并表示运行 Meta 的 700 亿参数 Llama 2 模型的计算成本比运行 Meta 的 700 亿参数 Llama 2 模型的计算成本便宜 10 倍。在 Amazon Web Services 上执行此操作。
Lamini 表示,对 AMD Instinct GPU 的依赖是一个差异化因素,部分原因在于它们是可用的,这与 Nvidia 的旗舰 A100 和 H100 GPU 不同,后者由于运行 LLM 和其他类型的生成人工智能应用程序的基础设施的高需求而出现短缺。
Lamini 的首席技术官 Diamos 称赞 ROCm(AMD 用于在 GPU 上编码软件的软件堆栈)与 Nvidia 的 LLMS CUDA 平台“实现了软件对等”。
他表示,该初创公司选择2021 年推出的AMD 旗舰产品 Instinct MI250 GPU作为其平台的基础,“因为它运行我们客户所需的最大模型,并集成了微调优化。”
Diamos 补充说,MI250 的 128 GB 高带宽内存容量使 Lamini 能够“运行比 Nvidia 的 A100 集群更低的软件复杂性的更大模型”。
根据 Lamini 运行的测试,AMD 功能较弱的 Instinct MI210 GPU 在通用矩阵-矩阵乘法 (GEMM) 方面实现了每秒高达 89% 的理论峰值万亿次浮点运算,在 ROCM 的 hipMemcpy 功能方面实现了高达 70% 的峰值带宽。
“这表明 AMD 的库有效利用了关键基元的 MI 加速器的原始吞吐量。凭借高效运行的基本构建块,ROCm 为微调 LLM 等高性能应用程序提供了坚实的基础。”Diamos 在博客文章中写道。
据 Lamini 称,AMD 正在利用这家初创公司的平台,由AMD自己的员工“针对众多用例”来微调大型语言模型
2023年09月28日 10点09分
1
https://www.crn.com/news/components-peripherals/llm-startup-embraces-amd-gpus-says-rocm-has-parity-with-nvidia-s-cuda-platform
一家专注于微调大型语言模型的初创公司透露,它已经“秘密地在 100 多个”AMD Instinct MI200 系列 GPU 上运行,并表示该芯片设计商的 ROCm 软件平台“已经实现了与 Nvidia 针对此类模型的主导 CUDA 平台的软件平价”。
总部位于加利福尼亚州帕洛阿尔托的初创公司 Lamini 在周二的一篇博客文章中披露了这一消息,当时 AMD 对竞争对手 Nvidia 发起了迄今为止最大规模的攻势,Nvidia 的 GPU 是许多大型语言模型 (LLM) 和其他类型的主要引擎。今天的生成式人工智能应用。
Lamini 由机器学习专家 Sharon Zhou 和前 Nvidia CUDA 软件架构师 Greg Diamos 创立,是一家小型初创公司,其平台允许企业使用专有数据将 LLM 微调和定制为私有模型。该初创公司声称,有超过 5,000 家公司在候补名单上,等待使用其几个月前开放的平台。
Lamini 在博客文章中表示,它已经在自己的基础设施上运行了 100 多个 AMD Instinct MI200 GPU,该初创公司通过其新发布的 LLM Superstation 提供这些基础设施,可在云端和本地使用。
据这家初创公司称,这使得 Lamini 成为“唯一在生产中专门在 AMD Instinct GPU 上运行的 LLM 平台”,并表示运行 Meta 的 700 亿参数 Llama 2 模型的计算成本比运行 Meta 的 700 亿参数 Llama 2 模型的计算成本便宜 10 倍。在 Amazon Web Services 上执行此操作。
Lamini 表示,对 AMD Instinct GPU 的依赖是一个差异化因素,部分原因在于它们是可用的,这与 Nvidia 的旗舰 A100 和 H100 GPU 不同,后者由于运行 LLM 和其他类型的生成人工智能应用程序的基础设施的高需求而出现短缺。
Lamini 的首席技术官 Diamos 称赞 ROCm(AMD 用于在 GPU 上编码软件的软件堆栈)与 Nvidia 的 LLMS CUDA 平台“实现了软件对等”。
他表示,该初创公司选择2021 年推出的AMD 旗舰产品 Instinct MI250 GPU作为其平台的基础,“因为它运行我们客户所需的最大模型,并集成了微调优化。”
Diamos 补充说,MI250 的 128 GB 高带宽内存容量使 Lamini 能够“运行比 Nvidia 的 A100 集群更低的软件复杂性的更大模型”。
根据 Lamini 运行的测试,AMD 功能较弱的 Instinct MI210 GPU 在通用矩阵-矩阵乘法 (GEMM) 方面实现了每秒高达 89% 的理论峰值万亿次浮点运算,在 ROCM 的 hipMemcpy 功能方面实现了高达 70% 的峰值带宽。
“这表明 AMD 的库有效利用了关键基元的 MI 加速器的原始吞吐量。凭借高效运行的基本构建块,ROCm 为微调 LLM 等高性能应用程序提供了坚实的基础。”Diamos 在博客文章中写道。
据 Lamini 称,AMD 正在利用这家初创公司的平台,由AMD自己的员工“针对众多用例”来微调大型语言模型
