Meus dados consistem em várias medições contínuas e em algumas variáveis fictícias que representam os anos em que as medições foram feitas. Agora, quero aprender uma rede neural com os dados. Portanto, estou normalizando o zScore de todas as variáveis, incluindo as variáveis dummy. No entanto, eu me pergunto se essa é uma abordagem razoável, porque normalizar as variáveis dummy altera seus intervalos, o que acho que as torna menos comparáveis se suas distribuições diferirem. Por outro lado, não normalizar as variáveis fictícias também pode ser questionável, porque sem normalização sua influência na saída da rede pode ser abaixo do ideal.
Qual é a melhor abordagem para lidar com variáveis fictícias, normalizando-as (zScore) ou apenas deixando-as como estão?
fonte
Respostas:
A normalização seria necessária se você estiver fazendo alguma forma de medição de similaridade.
As variáveis dummy, por sua natureza, atuam como um comutador binário. Codificá-lo como (0,1) ou (-,5, 0,5) não deve ter impacto nos relacionamentos que exibe para uma variável dependente, se o que você está tentando fazer é alguma forma, regressão ou classificação.
Seria importante se você estivesse executando um cluster, pois seria dependente da escala.
fonte
Normalizar variáveis fictícias não faz sentido. Normalmente, a normalização é usada quando as variáveis são medidas em escalas diferentes, de forma que uma comparação adequada não seja possível. Com variáveis dummy, no entanto, coloca-se apenas uma informação binária no modelo e, se for normalizada, a informação do impacto de, por exemplo, um ano é perdida.
fonte