看得出来a卡的软件适配把人家工程师折磨有点厉害
ati吧
全部回复
仅看楼主
level 1
古烈大笑 楼主
https://news.qq.com/rain/a/20241226V07A0A00,视频
2024年12月31日 10点12分 1
level 1
古烈大笑 楼主
最近,SemiAnalysis报道称,花了五个月时间才弄清 MI300X 的真正原因。理论上,MI300X 在规格和总拥有成本 (TCO) 方面应该比 Nvidia 的 H100 和 H200 具有巨大优势。然而,实际情况是,下面给出的纸面规格并不代表在实际环境中可以预期的性能。
简而言之,当将 Nvidia 的 GPU 与 AMD 的 MI300X 进行比较时,我们发现由于 AMD 公开发布的软件堆栈缺乏以及 AMD 缺乏测试,MI300X 的潜在纸面优势并未实现。
AMD 的软件体验充斥着错误,无法使用 AMD 进行开箱即用的训练。我们希望 AMD 能够成为 NVIDIA 在训练工作负载方面的强大竞争对手,但不幸的是,截至今天,情况并非如此。由于 AMD 的软件质量保证 (QA) 文化弱于预期,并且开箱即用的体验具有挑战性,因此 AMD 尚未跨越 CUDA 护城河。
2、Nvidia 的开箱即用性能和体验令人惊叹,我们在基准测试期间没有遇到任何 Nvidia 特有的错误。Nvidia 派了一名工程师为我们提供技术支持,但我们没有遇到任何 Nvidia 软件错误,因此我们不需要太多支持。
3、AMD 的开箱即用体验非常难以使用,需要相当大的耐心和努力才能达到可用状态。在我们的大多数基准测试中,AMD PyTorch 的公共 AMD 稳定版本仍然有问题,我们需要解决方法。
4、如果没有多个 AMD 工程师团队的支持,对我们遇到的 AMD 软件错误进行分类和修复,AMD 的结果将比 Nvidia 低得多。
AMD RCCL 是 Nvidia NCCL 的一个分支。AMD 的 RCCL 团队和 AMD 的许多其他团队资源有限,没有足够的计算或人员来改善 AMD 生态系统。AMD 的 RCCL 团队目前可以稳定地使用不到 32 台 MI300X 进行研发,这很讽刺,因为改善集体运营的关键在于能够使用许多 GPU。坦率地说,这很愚蠢,AMD 应该花更多钱让他们的软件团队能够使用更多的 GPU。
这与 Nvidia 的 NCCL 团队形成了鲜明对比,该团队可以使用 Nvidia 的 11,000 H100 内部 EOS 集群的研发资源。此外,Nvidia 还拥有 Sylvain Jeaugey,他是集体通信方面的主题专家。Nvidia 还有很多其他世界级的集体专家,不幸的是,由于薪酬和资源吸引力较小,AMD 在很大程度上未能吸引集体库人才——而 Nvidia 的工程师则不同,由于 RSU 价值的升值,工程师年薪超过 100 万美元的情况并不罕见。
为了缓解这些问题,TensorWave 和 SemiAnalysis 目前正在与 AMD RCCL 团队合作,以提高整体性能。TensorWave 慷慨地赞助了 AMD 一个中型集群,以帮助 RCCL 团队拥有更多资源来完成他们的工作。Tensorwave 在购买了许多 GPU 后,还必须向 AMD 提供 GPU 来修复他们的软件,这真是太疯狂了。
AMD 的许多库都是从 Nvidia 的开源或生态系统库中分叉出来的。AMD 使用一种名为 Hipify 的工具来执行 Nvidia CUDA 到 AMD HIP 的源到源转换。虽然动机可以理解,但 他们是在竞争对手的平台上构建的 ,不能指望通过这种软件开发策略来匹配或超越 Nvidia 的用户体验。他们需要将他们的软件贡献给 AMD 生态系统。
向AMD提供修复其软件的详细建议
首先,AMD 需要专注于吸引更多软件工程资源并提高现有工程师的薪酬。AMD 和 Nvidia 之间的当前薪酬差距意味着,顶尖人才被 Nvidia 而不是 AMD 所吸引。这些顶尖人才也被 Nvidia 所吸引,因为它为工程师提供了更多的计算/资源。AMD 应该为其内部开发工作采购更多 GPU,并尽快提交 MLPerf GPT3 175B 结果。即使结果现在无法与 Nvidia 竞争,提交这样的基准测试也将启动迭代改进的过程。
我们还注意到 AMD 经常向客户提供自定义映像,事实上,AMD 开发人员自己也经常在这些定制映像的基础上工作。这不是最佳实践,因为这意味着 AMD 工程师的体验与公众可用的映像不同。AMD 应该通过在内部和客户中使用这些映像来提高公共映像的标准,AMD 高管团队应该亲自在内部测试(即“狗粮”)公开发布的内容。
我们建议 AMD 创建一个每晚运行的公共仪表板,显示其硬件在 MLPerf 或 TorchBench 等基准测试中的表现。该仪表板还应包括 H100/H200 性能作为基准。
最后,AMD 需要彻底改变其环境标志方法。它不应设置大量标志来开箱即用,而应将其设置为推荐的默认值,以便用户快速上手。
2024年12月31日 10点12分 2
level 1
古烈大笑 楼主
完整文字版https://news.qq.com/rain/a/20241227A099HQ00
2024年12月31日 10点12分 3
level 1
古烈大笑 楼主
只能说a卡还在以十几年前的方式做传统GPU,测试m300这种企业级的竟然只用30多台来测试以及研发?nv都用上万台h100来测试软件生态问题。。。非常依赖于映象测试,难怪消费级上也会出些问题了[汗]
2024年12月31日 10点12分 4
吧务
level 13
rocm这玩意儿给人感觉就是东一棒子西一棒子,人员永远都在拆东墙补西墙。很难想象这么迫在眉睫的需求,AMD都给不出足够的支持。
2024年12月31日 12点12分 6
那样少的GPU的软件测试研发方式,有种古早的味道,AMD给人感觉仅仅是ati的硅工程技术的延续,而其他一无所有,就像访谈里说的只是出色的硅工程厂家[笑尿]
2024年12月31日 14点12分
level 9
软件人员捉襟见肘是amd几十年的问题了。。。
2024年12月31日 13点12分 7
level 10
other小厂人少,不妨碍继续成为other
2024年12月31日 14点12分 8
人不少了,2.4w人和nv差不多呢,事情太杂了,要补的短板很多,最近还不停的收购,25%的营收用于投入研发已经非常高了,这里面投入的东西太杂了,就想Intel有10w员工,投入也是nv+AMD总和的几倍,但是投入被分散了,所以CPU落后被AMD蚕食份额
2024年12月31日 17点12分
@古烈大笑 还是人力资源紧张,同时做cpu,gpu,asic三个主板块,这个体量肯定是不够的,而且并不是每个产品都有足够的盈利能力,投入上也会分散,amd去选择和头部厂商和新兴独角兽企业合作也是为了分担软件开发压力,nv能to b to c两手抓不是没道理
2025年01月02日 01点01分
nv目前的投入是AMD的两倍,但业务却要简单很多
2024年12月31日 17点12分
@古烈大笑 讲个笑话,AMD的员工都没几个会装ROCm
2025年01月01日 11点01分
level 13
所以别怪A卡驱动优化摆烂了,人家最赚钱的服务器市场人手都严重不足[喷]
2024年12月31日 14点12分 9
level 13
所以服务器和消费端架构迫切需要统一,一个统一的架构才能让rocm的生态开花,能让服务器和消费端两个互补,而不是像现在这样要强迫开发者做两边的优化
2024年12月31日 14点12分 10
@古烈大笑 蓝屏英的研发投入其中8成是if晶圆厂的工艺研发,还有他把公关费也计算进去的,n和a没有晶圆厂,研发个鸡毛啊
2024年12月31日 22点12分
AMD有点类似于Intel,困境也总是类似于现在Intel的困境,业务繁多,自身研发投入被分散了,几乎同样数量的员工,nv业务简单明了GPU以及GPU生态,而AMD业务板块就很杂,强如Intel即便有10w员工,CPU依然被AMD反超蚕食份额
2024年12月31日 18点12分
Intel去年研发投入接近是nv+AMD的总和165亿,今年nv的1-9月是92亿预估,AMD今年一个季度平均也才15亿左右,也就是nv的一半45亿左右,就和Intel去年的165亿一样,这其中GPU投入占比多少也不好说[汗]
2024年12月31日 18点12分
@古烈大笑 完全两码事,intel管理出了问题,而且有fab梭哈的巨大负债,开发团队不集中,QA一团糟基本是硬件开发的反面教材
2025年01月02日 01点01分
吧务
level 15
计算卡确实是这样的
2024年12月31日 22点12分 11
level 1
这也是中小企业现在的困境了,买
绿厂
的价格贵,买红厂的缺少技术支持,最后发挥出的性能可能跟买绿厂同价位低性能的产品也差不多
2025年01月02日 00点01分 14
level 13
硬件公司的老问题了,钱少资源少,买不到行业最好的人和团队
2025年01月02日 05点01分 15
level 6
如果pytorch搞不定,pytorch的几个重要外挂库也搞不定,那么这生态就用不了。
现在炼丹师几乎99%的调包侠,他们能把bug报清楚就不错了。
2025年01月02日 06点01分 16
1