Normalização de variáveis ​​dummy

8

Meus dados consistem em várias medições contínuas e em algumas variáveis ​​fictícias que representam os anos em que as medições foram feitas. Agora, quero aprender uma rede neural com os dados. Portanto, estou normalizando o zScore de todas as variáveis, incluindo as variáveis ​​dummy. No entanto, eu me pergunto se essa é uma abordagem razoável, porque normalizar as variáveis ​​dummy altera seus intervalos, o que acho que as torna menos comparáveis ​​se suas distribuições diferirem. Por outro lado, não normalizar as variáveis ​​fictícias também pode ser questionável, porque sem normalização sua influência na saída da rede pode ser abaixo do ideal.

Qual é a melhor abordagem para lidar com variáveis ​​fictícias, normalizando-as (zScore) ou apenas deixando-as como estão?

Funkwecker
fonte
4
Você pode achar este artigo de A. Gelman interessante stat.columbia.edu/~gelman/research/published/standardizing7.pdf
boscovich

Respostas:

7

A normalização seria necessária se você estiver fazendo alguma forma de medição de similaridade.

As variáveis ​​dummy, por sua natureza, atuam como um comutador binário. Codificá-lo como (0,1) ou (-,5, 0,5) não deve ter impacto nos relacionamentos que exibe para uma variável dependente, se o que você está tentando fazer é alguma forma, regressão ou classificação.

Seria importante se você estivesse executando um cluster, pois seria dependente da escala.

Arun Jose
fonte
2

Normalizar variáveis ​​fictícias não faz sentido. Normalmente, a normalização é usada quando as variáveis ​​são medidas em escalas diferentes, de forma que uma comparação adequada não seja possível. Com variáveis ​​dummy, no entanto, coloca-se apenas uma informação binária no modelo e, se for normalizada, a informação do impacto de, por exemplo, um ano é perdida.

cara aleatório
fonte
Então, de acordo com a pergunta, como lidamos com a função de perda?
Afshin Amiri