inclusive_scan导致cudamemcpy很耗时
cuda吧
全部回复
仅看楼主
level 1
😄º哈哈哈º😄
楼主
今天写代码时发现用cudamemcpy把25M个数据点从gpu向cpu中复制时,发现非常耗时,需要50多秒,注释掉前面两句trust::inclusive_scan和trust::copy后发现只需要几十毫秒,请问大佬这个问题怎么解决,inclusive_scan是实现代码功能必须要有的用来计算前缀和的代码,实际应用不能注释掉。问ai说是可能是由于内存碎片化导致的?应该怎么解决?
2024年08月05日 12点08分
1
1