Eu tenho um conjunto de dados que contém variáveis categóricas e variáveis contínuas. Fui aconselhado a transformar as variáveis categóricas como variáveis binárias para cada nível (por exemplo, A_level1: {0,1}, A_level2: {0,1}) - acho que alguns chamaram isso de "variáveis fictícias".
Com isso dito, seria enganoso centralizar e dimensionar todo o conjunto de dados com as novas variáveis? Parece que eu perderia o significado "on / off" das variáveis.
Se for enganoso, isso significa que devo centralizar e dimensionar as variáveis contínuas separadamente e depois adicioná-las novamente ao meu conjunto de dados?
TIA.
categorical-data
data-transformation
centering
user2300643
fonte
fonte
Respostas:
Ao construir variáveis fictícias para uso em análises de regressão, cada categoria em uma variável categórica, exceto uma, deve obter uma variável binária. Portanto, você deve ter, por exemplo, A_level2, A_level3 etc. Uma das categorias não deve ter uma variável binária e essa categoria servirá como categoria de referência. Se você não omitir uma das categorias, suas análises de regressão não serão executadas corretamente.
Se você usa SPSS ou R, não acho que a escala e a centralização de todo o conjunto de dados geralmente sejam um problema, pois esses pacotes de software geralmente interpretam variáveis com apenas dois níveis como fatores, mas isso pode depender dos métodos estatísticos específicos usados. . De qualquer forma, não faz sentido dimensionar e centralizar variáveis binárias (ou categóricas); portanto, você deve centralizar e dimensionar variáveis contínuas apenas se precisar fazer isso.
fonte
Se você estiver usando R e dimensionando as variáveis fictícias ou variáveis com 0 ou 1 para uma escala entre 0 e 1 apenas, não haverá nenhuma alteração nos valores dessas variáveis, o restante das colunas será dimensionado.
fonte
O ponto de centralização média na regressão é tornar a interceptação mais interpretável. Ou seja, se você quer dizer centralizar todas as variáveis em seu modelo de regressão, a interceptação (chamada Constant na saída do SPSS) é igual à média geral geral da variável de resultado. O que pode ser conveniente ao interpretar o modelo final.
Quanto às variáveis fictícias de centralização média, eu acabei de conversar com um professor sobre variáveis fictícias de centralização média em um modelo de regressão (no meu caso, um modelo multinível de desenho de blocos randomizado com 3 níveis) e minha retirada foi a centralização do variáveis dummy na verdade não alteram a interpretação dos coeficientes de regressão (exceto que a solução é completamente padronizada). Normalmente, não é necessário, na regressão, interpretar o valor médio médio real do nível da unidade - apenas os coeficientes. E isso essencialmente não muda - na maior parte. Ela disse que muda um pouco porque é padronizada, o que, para os manequins, não é tão intuitivo de entender.
Advertência: Essa foi a minha compreensão quando saí do escritório do meu professor. É claro que eu poderia estar errado.
fonte