Posso testar a correlação entre variáveis ​​antes de padronizá-las?

7

O que eu quero fazer é construir GLMMs para avaliar a seleção de recursos, e eu tenho um conjunto de variáveis ​​(algumas representando distâncias e outras representando% da cobertura do solo).

Posso testar a correlação entre variáveis ​​antes de padronizá-las? Não tenho muita certeza do que devo fazer primeiro.

mtao
fonte

Respostas:

11

Posso testar a correlação entre variáveis ​​antes de padronizá-las? Não tenho muita certeza do que devo fazer primeiro.

A correlação será a mesma, independentemente de você calculá-la antes ou depois da padronização. Para ver isso, basta saber que a correlação é invariante em escala. TomabR e uma>0 0, então

Corr(umaX-b,Y)=Cov(umaX-b,Y)Var(umaX-b)(Var(Y)=Cov(umaX,Y)Var(umaX)Var(Y)=umaCov(X,Y)uma2Var(X)Var(Y)=umaCov(X,Y)umaVar(X)Var(Y)=Cov(X,Y)Var(X)Var(Y)=Corr(X,Y)

A primeira igualdade é uma definição.
O segundo usa a propriedade de que covariância e variação são invariantes a mudanças de local.
O terceiro usa as propriedades de covariância e variância em relação à multiplicação por uma constante.
O quarto usa o fato de queuma>0 0.
O quinto apenas cancela os multiplicadores.
O sexto é novamente uma definição.

Isso abrange a padronização, que está subtraindo a média e dividindo pelo desvio padrão (um número positivo).

Richard Hardy
fonte
Muito obrigado pela sua resposta, é muito esclarecedor!
mtao
5

Sim, verificar as correlações entre suas variáveis ​​explicativas faz parte da exploração dos dados, conforme sugerido em Zuur et al. (2010) Um protocolo para exploração de dados para evitar problemas estatísticos comuns . Isso deve ser feito antes de padronizá-los e construir seus GLMMs.

No entanto, não tenho certeza de como isso afetaria as correlações se você padronizasse suas variáveis ​​explicativas primeiro, mas acho que os resultados da correlação seriam relativamente os mesmos.

Guerreiro da Lama
fonte
4

+1 nas duas respostas, mas apenas para afirmar o óbvio:

A correlação linear é definida como a versão em escala da covariância entre duas variáveis. A própria escala é simplesmente o produto dos desvios padrão das duas variáveis. Portanto, a padronização (ou qualquer transformação linear das variáveis ​​examinadas) não alterará a correlação, pois qualquer efeito anterior de redimensionamento que possa afetar a covariância será anulado pela normalização da escala que fornece a estimativa final da correlação.

usεr11852
fonte