Considere um quadro de dados pyspark composto por elementos 'nulos' e elementos numéricos. Em geral, os elementos numéricos têm valores diferentes. Como é possível substituir todos os valores numéricos do quadro de dados por um valor numérico constante (por exemplo, pelo valor 1)? Desde já, obrigado!
Exemplo para o dataframe pyspark:
O resultado deve ser:
python
apache-spark
só nós
fonte
fonte
Respostas:
Usar
lit
converteria todos os valores da coluna para o valor fornecido.Para fazer isso apenas para valores não nulos do quadro de dados, você teria que filtrar valores não nulos de cada coluna e substituir seu valor.
when
pode ajudá-lo a conseguir isso.Isso resultaria em:
Além disso, se você desejar substituir esses valores nulos por algum outro valor também, poderá usar
otherwise
em combinação comwhen
. Digamos que você queira imputar0
lá:Isso resultaria em:
fonte
De acordo com o seu problema, acho que pode ser mais fácil usar o iluminado . Tente isto-
Espero que ajude!
fonte
Isso seria mais fácil se você tiver várias colunas:
fonte