Posso testar a correlação entre variáveis antes de padronizá-las? Não tenho muita certeza do que devo fazer primeiro.
A correlação será a mesma, independentemente de você calculá-la antes ou depois da padronização. Para ver isso, basta saber que a correlação é invariante em escala. Tomab ∈ R e a > 0, então
Corr ( um X- b , Y)=Cov ( um X- b , Y)Var ( um X- b )----------√( Var ( Y)-------√=Cov ( um X, Y)Var ( um X)-------√Var ( Y)------√=um Cov ( X, Y)uma2Var ( X)--------√Var ( Y)------√=um Cov ( X, Y)umaVar ( X)------√Var ( Y)------√=Cov ( X, Y)Var ( X)------√Var ( Y)------√= Corr ( X, Y)
A primeira igualdade é uma definição.
O segundo usa a propriedade de que covariância e variação são invariantes a mudanças de local.
O terceiro usa as propriedades de covariância e variância em relação à multiplicação por uma constante.
O quarto usa o fato de quea > 0.
O quinto apenas cancela os multiplicadores.
O sexto é novamente uma definição.
Isso abrange a padronização, que está subtraindo a média e dividindo pelo desvio padrão (um número positivo).
Sim, verificar as correlações entre suas variáveis explicativas faz parte da exploração dos dados, conforme sugerido em Zuur et al. (2010) Um protocolo para exploração de dados para evitar problemas estatísticos comuns . Isso deve ser feito antes de padronizá-los e construir seus GLMMs.
No entanto, não tenho certeza de como isso afetaria as correlações se você padronizasse suas variáveis explicativas primeiro, mas acho que os resultados da correlação seriam relativamente os mesmos.
fonte
+1 nas duas respostas, mas apenas para afirmar o óbvio:
A correlação linear é definida como a versão em escala da covariância entre duas variáveis. A própria escala é simplesmente o produto dos desvios padrão das duas variáveis. Portanto, a padronização (ou qualquer transformação linear das variáveis examinadas) não alterará a correlação, pois qualquer efeito anterior de redimensionamento que possa afetar a covariância será anulado pela normalização da escala que fornece a estimativa final da correlação.
fonte