variáveis dummy de centralização e dimensionamento

13

Eu tenho um conjunto de dados que contém variáveis categóricas e variáveis contínuas. Fui aconselhado a transformar as variáveis categóricas como variáveis binárias para cada nível (por exemplo, A_level1: {0,1}, A_level2: {0,1}) - acho que alguns chamaram isso de "variáveis fictícias".

Com isso dito, seria enganoso centralizar e dimensionar todo o conjunto de dados com as novas variáveis? Parece que eu perderia o significado "on / off" das variáveis.

Se for enganoso, isso significa que devo centralizar e dimensionar as variáveis contínuas separadamente e depois adicioná-las novamente ao meu conjunto de dados?

TIA.

categorical-data data-transformation centering user2300643
fonte

1

Se é aceitável ou razoável centralizar e / ou dimensionar variáveis fictícias depende do aplicativo, da análise que você está planejando e de considerações específicas da tarefa. Portanto, não há uma única resposta correta. Na maioria das formulações gerais, geralmente é aceitável fazê-lo com variáveis fictícias preditoras; geralmente é uma má idéia fazer isso com variáveis fictícias de resposta ou em métodos multivariados, como clustering ou análise fatorial.

ttnphns

13

Ao construir variáveis fictícias para uso em análises de regressão, cada categoria em uma variável categórica, exceto uma, deve obter uma variável binária. Portanto, você deve ter, por exemplo, A_level2, A_level3 etc. Uma das categorias não deve ter uma variável binária e essa categoria servirá como categoria de referência. Se você não omitir uma das categorias, suas análises de regressão não serão executadas corretamente.

Se você usa SPSS ou R, não acho que a escala e a centralização de todo o conjunto de dados geralmente sejam um problema, pois esses pacotes de software geralmente interpretam variáveis com apenas dois níveis como fatores, mas isso pode depender dos métodos estatísticos específicos usados. . De qualquer forma, não faz sentido dimensionar e centralizar variáveis binárias (ou categóricas); portanto, você deve centralizar e dimensionar variáveis contínuas apenas se precisar fazer isso.

JonB
fonte

2

Meu forte sentimento é que a única parte da resposta que realmente está respondendo à pergunta do OP é a última frase - uma parte inexplicável. Você diz que não as escala, mas não explica o porquê. Enquanto isso, o tópico não é muito fácil.

ttnphns

Essa é apenas uma maneira de codificar variáveis categóricas. Não tenho tempo para escrever uma resposta completa, mas pesquisar "contrastes" pode ajudar. Uma resposta relevante é stats.stackexchange.com/questions/60817/…

user20637

3

Se você estiver usando R e dimensionando as variáveis fictícias ou variáveis com 0 ou 1 para uma escala entre 0 e 1 apenas, não haverá nenhuma alteração nos valores dessas variáveis, o restante das colunas será dimensionado.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

Shekhar Sahu
fonte

Dica interessante. Obrigado por compartilhar. Faz um tempo desde que perguntei, mas é bom ver que ainda posso aprender com esses posts antigos.

user2300643

2

O ponto de centralização média na regressão é tornar a interceptação mais interpretável. Ou seja, se você quer dizer centralizar todas as variáveis em seu modelo de regressão, a interceptação (chamada Constant na saída do SPSS) é igual à média geral geral da variável de resultado. O que pode ser conveniente ao interpretar o modelo final.

Quanto às variáveis fictícias de centralização média, eu acabei de conversar com um professor sobre variáveis fictícias de centralização média em um modelo de regressão (no meu caso, um modelo multinível de desenho de blocos randomizado com 3 níveis) e minha retirada foi a centralização do variáveis dummy na verdade não alteram a interpretação dos coeficientes de regressão (exceto que a solução é completamente padronizada). Normalmente, não é necessário, na regressão, interpretar o valor médio médio real do nível da unidade - apenas os coeficientes. E isso essencialmente não muda - na maior parte. Ela disse que muda um pouco porque é padronizada, o que, para os manequins, não é tão intuitivo de entender.

Advertência: Essa foi a minha compreensão quando saí do escritório do meu professor. É claro que eu poderia estar errado.

Katie
fonte

variáveis ​​dummy de centralização e dimensionamento

Respostas:

variáveis dummy de centralização e dimensionamento