Encontrei muitos posts úteis sobre variáveis independentes padronizadas e variáveis independentes centralizadas no stats.stackexchange.com, mas ainda estou um pouco confuso. Estou lhe pedindo uma avaliação do que entendi. Além disso, se o que se segue não estiver correto, você poderia me corrigir?
- Como padronizar. As variáveis padronizadas são obtidas subtraindo a média da variável e dividindo pelo desvio padrão dessa mesma variável.
- Como centralizar. As variáveis independentes centralizadas são obtidas apenas subtraindo a média da variável.
- O motivo da padronização. Você padroniza variáveis para facilitar a interpretação dos coeficientes estimados quando as variáveis em sua regressão possuem unidades de medida diferentes. Quando você deseja padronizar, é necessário padronizar todas as variáveis na regressão - o que implica que você não obterá uma estimativa da constante (ou seja, o B0 ou a interceptação).
- O motivo da centralização. Você centraliza as variáveis se deseja obter uma interpretação significativa da constante estimada. Nesse caso, você pode centralizar a quantidade de variáveis que deseja; você não precisa centralizar todas as variáveis independentes no modelo.
- A variável independente, Y. (pergunta simples) Você já centraliza ou padroniza o Y?
- Utilização natural do logaritmo. Se uma ou mais de suas variáveis não forem normalmente distribuídas, você poderá transformá-las usando o logaritmo natural. Somente APÓS essa transformação, você pode padronizar todas as variáveis ou centralizar aquelas que precisa centralizar. Em geral, qualquer transformação de uma variável deve ocorrer antes da padronização ou centralização (aqui falo sobre logaritmo natural, mas você pode quadrar uma variável ou dividir uma variável por outra, por exemplo, população / km2)
- Coeficientes de interpretação variáveis padronizadas. "Um aumento de 1 desvio padrão em X1 aumentará (ou diminuirá) Y em -número-".
- Variáveis centradas nos coeficientes de interpretação. Coeficientes de variáveis aleatórias: "Um aumento de X1 em -número- a partir de sua média aumentará (ou diminuirá) Y em -número-". Constante: "Representa o valor esperado de Y quando as variáveis não centralizadas são zero e quando as variáveis centralizadas estão na média."
- Termos de interação. A interpretação do coeficiente de um termo de interação não deve ser problemática, se você padronizou suas variáveis ou as centralizou (apenas uma variável da interação ou ambas). Basicamente, a interpretação é que você normalmente dá um termo de interação (por exemplo, você está interessado no efeito de X1 em Y e X1 é interagido com X2, o efeito total de X1 é dado por seu coeficiente + coeficiente. quando X2 for corrigido), lembre-se de contextualizar a interpretação seguindo os pontos 7 ou 8, dependendo do tipo de transformação que você fez.
Respostas:
fonte