Eu tenho um conjunto de dados com um conjunto de recursos. Alguns deles são binários ativo ou acionado, inativo ou inativo) e o restante é valorizado de verdade, por exemplo, .
Eu quero alimentar esses dados para um algoritmo de aprendizado de máquina, de modo que -Score todas as características de valor real. Eu os pego entre os intervalos e aproximadamente. Agora, os valores binários são também -scored, portanto, os zeros se tornar e os tornar .
Padronizar variáveis binárias como essa faz sentido?
Uma variável binária com valores 0, 1 pode (geralmente) ser dimensionada para (valor - média) / DP, que é presumivelmente o seu z-score.
A restrição mais óbvia disso é que, se você conseguir todos os zeros ou todos, ligar o SD cegamente significaria que o escore z é indeterminado. Há um caso de atribuir zero também, na medida em que value - mean é identicamente zero. Mas muitas coisas estatísticas não farão muito sentido se uma variável for realmente uma constante. De maneira mais geral, porém, se o DS for pequeno, há mais risco de que os escores sejam instáveis e / ou não sejam bem determinados.
Um problema para dar uma resposta melhor à sua pergunta é precisamente o "algoritmo de aprendizado de máquina" que você está considerando. Parece que é um algoritmo que combina dados para várias variáveis e, portanto, geralmente faz sentido fornecê-los em escalas semelhantes.
(MAIS TARDE) Como o pôster original adiciona comentários um por um, a pergunta deles está se transformando. Eu ainda considero que (valor - média) / SD faz sentido (isto é, não faz sentido) para variáveis binárias, desde que o SD seja positivo. No entanto, a regressão logística mais tarde foi nomeada como o aplicativo e, para isso, não há ganho teórico ou prático (e, de fato, alguma perda de simplicidade) em algo além de alimentar variáveis binárias como 0, 1. Seu software deve ser capaz de lidar bem com aquele; caso contrário, abandone esse software em favor de um programa que possa. Em termos da pergunta do título: can, yes; deveria, não.
fonte
Um bom exemplo em que pode ser útil padronizar de uma maneira ligeiramente diferente é dado na seção 4.2 de Gelman e Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Isso ocorre principalmente quando a interpretação dos coeficientes é de interesse e, talvez, quando não há muitos preditores.
Lá, eles padronizam uma variável binária (com proporção igual de 0 e 1) por vez do normalσ. Em seguida, estes coeficientes padronizados assumir valores±0,5e, em seguida, os coeficientes de reflectir comparações entrex=0ex=1directamente. Se escalado porσ, o coeficiente corresponderia à metade da diferença entre os possíveis valores dex.
fonte
O que você deseja padronizar, uma variável aleatória binária ou uma proporção?
Não faz sentido padronizar uma variável aleatória binária. A variável aleatória é uma função que atribui um valor real para um evento . Nesse caso, 0 para falha e 1 para sucesso, ou seja, Y ∈ { 0 , 1 } .Y:S→R Y∈{0,1}
No caso de uma proporção, essa não é uma variável aleatória binária, é uma variável contínua , x ∈ R + .X∈[0,1] x∈R+
fonte
Na regressão logística, variáveis binárias podem ser padronizadas para combiná-las com contínuos vars quando você deseja fornecer a todos eles um prior não informativo, como N ~ (0,5) ou Cauchy ~ (0,5). Recomenda-se que a padronização seja a seguinte: Faça a contagem total e dê
1 = proporção de 1s
0 = 1 - proporção de 1s.
-----
Edit: Na verdade, eu não estava certo, não é uma padronização, mas uma mudança para ser centrado em 0 e diferir por 1 nas condições inferior e superior, digamos que uma população esteja 30% na empresa A e 70% na outra, podemos definir a variável "Empresa A" centralizada para assumir os valores -0,3 e 0,7.
fonte