Como a atualização de um buffer de profundidade funciona na GPU?

No momento, estou tentando implementar algum tipo de buffer de profundidade no software e tenho um grande problema ao escrever nele. Ter um mutex é um exagero absoluto. Então eu criei um número de mutexes igual ao número de threads. Estou bloqueando um mutex com base no pixel atual (pixel_index%...