Tomando correlação antes ou depois da transformação de log de variáveis

9

Existe um princípio geral sobre se alguém deve calcular a correlação de pearson para duas variáveis ​​aleatórias X e Y antes de realizar a transformação logarítmica ou depois? Existe um procedimento para testar o que é mais apropriado? Eles produzem valores semelhantes, mas diferentes, pois a transformação de log é não linear. Depende se X ou Y estão mais próximos da normalidade após o log? Se sim, por que isso importa? E isso significa que se deve fazer um teste de normalidade em X e Y versus log (X) e log (Y) e, com base nisso, decidir se pearson (x, y) é mais apropriado que pearson (log (x), log ( y))?

user9097
fonte
O @vinux tem uma boa resposta e fornece um link informativo para entender o papel da normalidade na correlação. Eu só queria apontar para esta pergunta: stats.stackexchange.com/questions/298, que é muito boa para entender o que os logs fazem na regressão.
gung - Restabelece Monica

Respostas:

5

registro(X)registro(Y)XYρSρS(X,Y)=ρS(registro(X),registro(Y))

Kavka
fonte
4

A correlação (pearson) mede uma relação linear entre duas variáveis ​​contínuas. Não existe essa opção para (X, Y) ou (log X, log Y). O gráfico de dispersão das variáveis ​​pode ser usado para entender o relacionamento.

O link a seguir pode responder sobre a questão da normalidade. ligação

vinux
fonte
-3

A correlação de Pearson é para testes paramétricos e é mais poderosa que o teste não parametírico. Assim, optamos por usar a transformação antes de qualquer procedimento não paramétrico. Transforme seus dados e obtenha correlação de pessoas. É isso aí.

abi
fonte
@ abi: Dependendo do tamanho da amostra, os coeficientes de Spearman e Kendall são relativamente semelhantes em termos de potência e MSE aos de Pearson com dados normalmente distribuídos e são muito superiores com uma leve contaminação de dados.
24413 Patrick