Como os blocos / warps / threads CUDA são mapeados para os núcleos CUDA?

Uso CUDA há algumas semanas, mas tenho algumas dúvidas sobre a alocação de blocos / warps / threads. Estou estudando a arquitetura do ponto de vista didático (projeto universitário), portanto, atingir o máximo desempenho não é minha preocupação. Antes de mais, gostaria de entender se entendi esses...