level 1
123西北角
楼主
大家好,小弟最近刚开始接触cuda编程,现在身边没有实验环境,我想问下内核函数里能否使用malloc函数?
另外,我想每个block都从global
memory中各自读取一个大概1M的矩阵,利用多线程将这个矩阵读到share memory中,可是每个multiprocessor的share
memory只有16k,我应该怎么解决才好呢?如果一个块只有一个线程,那从global
memory中直接读取1M的数据,其latency大概是多少?
第三个问题,哪里可以下载到处理十分巨大的数据量的cuda程序?
烦请各位大哥帮忙,小弟感激不尽,这些天被这些东西实在烦得不行。