Como o Cauê disse, paralelo.
Mas existe uma função (cudaThreadSynchronize) que vocês podem chamar para sincronizar todas as threads (esperar elas pararem).
Fórum