level 1
最近,SemiAnalysis报道称,花了五个月时间才弄清 MI300X 的真正原因。理论上,MI300X 在规格和总拥有成本 (TCO) 方面应该比 Nvidia 的 H100 和 H200 具有巨大优势。然而,实际情况是,下面给出的纸面规格并不代表在实际环境中可以预期的性能。
简而言之,当将 Nvidia 的 GPU 与 AMD 的 MI300X 进行比较时,我们发现由于 AMD 公开发布的软件堆栈缺乏以及 AMD 缺乏测试,MI300X 的潜在纸面优势并未实现。
AMD 的软件体验充斥着错误,无法使用 AMD 进行开箱即用的训练。我们希望 AMD 能够成为 NVIDIA 在训练工作负载方面的强大竞争对手,但不幸的是,截至今天,情况并非如此。由于 AMD 的软件质量保证 (QA) 文化弱于预期,并且开箱即用的体验具有挑战性,因此 AMD 尚未跨越 CUDA 护城河。
2、Nvidia 的开箱即用性能和体验令人惊叹,我们在基准测试期间没有遇到任何 Nvidia 特有的错误。Nvidia 派了一名工程师为我们提供技术支持,但我们没有遇到任何 Nvidia 软件错误,因此我们不需要太多支持。
3、AMD 的开箱即用体验非常难以使用,需要相当大的耐心和努力才能达到可用状态。在我们的大多数基准测试中,AMD PyTorch 的公共 AMD 稳定版本仍然有问题,我们需要解决方法。
4、如果没有多个 AMD 工程师团队的支持,对我们遇到的 AMD 软件错误进行分类和修复,AMD 的结果将比 Nvidia 低得多。
AMD RCCL 是 Nvidia NCCL 的一个分支。AMD 的 RCCL 团队和 AMD 的许多其他团队资源有限,没有足够的计算或人员来改善 AMD 生态系统。AMD 的 RCCL 团队目前可以稳定地使用不到 32 台 MI300X 进行研发,这很讽刺,因为改善集体运营的关键在于能够使用许多 GPU。坦率地说,这很愚蠢,AMD 应该花更多钱让他们的软件团队能够使用更多的 GPU。
这与 Nvidia 的 NCCL 团队形成了鲜明对比,该团队可以使用 Nvidia 的 11,000 H100 内部 EOS 集群的研发资源。此外,Nvidia 还拥有 Sylvain Jeaugey,他是集体通信方面的主题专家。Nvidia 还有很多其他世界级的集体专家,不幸的是,由于薪酬和资源吸引力较小,AMD 在很大程度上未能吸引集体库人才——而 Nvidia 的工程师则不同,由于 RSU 价值的升值,工程师年薪超过 100 万美元的情况并不罕见。
为了缓解这些问题,TensorWave 和 SemiAnalysis 目前正在与 AMD RCCL 团队合作,以提高整体性能。TensorWave 慷慨地赞助了 AMD 一个中型集群,以帮助 RCCL 团队拥有更多资源来完成他们的工作。Tensorwave 在购买了许多 GPU 后,还必须向 AMD 提供 GPU 来修复他们的软件,这真是太疯狂了。
AMD 的许多库都是从 Nvidia 的开源或生态系统库中分叉出来的。AMD 使用一种名为 Hipify 的工具来执行 Nvidia CUDA 到 AMD HIP 的源到源转换。虽然动机可以理解,但 他们是在竞争对手的平台上构建的 ,不能指望通过这种软件开发策略来匹配或超越 Nvidia 的用户体验。他们需要将他们的软件贡献给 AMD 生态系统。
向AMD提供修复其软件的详细建议
首先,AMD 需要专注于吸引更多软件工程资源并提高现有工程师的薪酬。AMD 和 Nvidia 之间的当前薪酬差距意味着,顶尖人才被 Nvidia 而不是 AMD 所吸引。这些顶尖人才也被 Nvidia 所吸引,因为它为工程师提供了更多的计算/资源。AMD 应该为其内部开发工作采购更多 GPU,并尽快提交 MLPerf GPT3 175B 结果。即使结果现在无法与 Nvidia 竞争,提交这样的基准测试也将启动迭代改进的过程。
我们还注意到 AMD 经常向客户提供自定义映像,事实上,AMD 开发人员自己也经常在这些定制映像的基础上工作。这不是最佳实践,因为这意味着 AMD 工程师的体验与公众可用的映像不同。AMD 应该通过在内部和客户中使用这些映像来提高公共映像的标准,AMD 高管团队应该亲自在内部测试(即“狗粮”)公开发布的内容。
我们建议 AMD 创建一个每晚运行的公共仪表板,显示其硬件在 MLPerf 或 TorchBench 等基准测试中的表现。该仪表板还应包括 H100/H200 性能作为基准。
最后,AMD 需要彻底改变其环境标志方法。它不应设置大量标志来开箱即用,而应将其设置为推荐的默认值,以便用户快速上手。
2024年12月31日 10点12分