warp实际上是怎么在硬件上运行的呢?
cuda吧
全部回复
仅看楼主
level 1
果果bird 楼主
在Turing架构呢,一个SM 64 cuda cores,被分成4组,由四个线程束控制器控制,每一组资源如下,
16 FP32 cuda core
16 INTS cores
对于一个warp,32个线程,如果指令的数据都ready的情况下,32个线程是怎么在16FP32 cuda cores上运行的呢?
而且不是有一个条件是需要运行一个warp需要满足32个cuda core可以用于运行吗?
2020年09月07日 10点09分 1
1