Atualmente, estou lendo suposições para correlações de Pearson. Uma suposição importante para o teste t subsequente parece ser que ambas as variáveis provêm de distribuições normais; se não o fizerem, é recomendável o uso de medidas alternativas, como o Spearman rho. A correlação de Spearman é calculada como a correlação de Pearson, usando apenas as fileiras de X e Y em vez das próprias X e Y, correto?
Minha pergunta é: se as variáveis de entrada em uma correlação de Pearson precisam ser normalmente distribuídas, por que o cálculo de uma correlação de Spearman é válido, mesmo que as variáveis de entrada sejam classificadas? Minhas fileiras certamente não vêm de distribuições normais ...
A única explicação que cheguei até agora é que o significado de rho pode ser testado diferentemente do teste t de correlação de Pearson (de uma maneira que não requer normalidade), mas até agora não encontrei nenhuma fórmula. No entanto, quando executei alguns exemplos, os valores de p para rho e para o teste t da correlação de classificações de Pearson sempre corresponderam, exceto os últimos dígitos. Para mim, isso não parece um procedimento inovador e diferente.
Quaisquer explicações e idéias que você possa ter serão apreciadas!
Bem, você está executando os exemplos errados então!
a
b
b
Por outro lado, embora
a
eb
tenham uma correlação de classificação perfeita, o coeficiente de correlação de Pearson é menor que 1. Isso mostra que a correlação de Pearson não está refletindo as classificações.Uma correlação de Pearson reflete uma função linear, uma correlação de classificação simplesmente uma função monotônica. No caso de dados normais, os dois se assemelham fortemente e suspeito que é por isso que seus dados não mostram grandes diferenças entre Spearman e Pearson.
Para um exemplo prático, considere o seguinte; você quer ver se as pessoas mais altas pesam mais. Sim, é uma pergunta boba ... mas apenas assuma que é com isso que você se importa. Agora, a massa não escala linearmente com o peso, pois as pessoas altas também são mais largas que as pequenas; então o peso não é uma função linear da altura. Alguém que é 10% mais alto que você é (em média) mais de 10% mais pesado. É por isso que o índice de massa corporal usa o cubo no denominador.
Consequentemente, você assumiria uma correlação linear para refletir imprecisa a relação altura / peso. Em contraste, a correlação de classificação é insensível às leis irritantes da física e da biologia neste caso; não reflete se as pessoas crescem mais linearmente à medida que ganham em altura, simplesmente reflete se as pessoas mais altas (mais altas na classificação em uma escala) são mais pesadas (mais altas na outra escala).
Um exemplo mais típico pode ser o das classificações de questionários do tipo Likert, como pessoas classificando algo como "perfeito / bom / decente / medíocre / ruim / horrível". "perfeito" está tão longe de "decente" quanto "decente" está em "ruim" na balança , mas podemos realmente dizer que a distância entre os dois é a mesma? Uma correlação linear não é necessariamente apropriada. A correlação de classificação é mais natural.
Para abordar sua pergunta mais diretamente: não, os valores de p para correlações de Pearson e Spearman não devem ser calculados de maneira diferente . Muito é diferente entre os dois, conceitualmente e numericamente, mas se a estatística do teste for equivalente, o valor de p será equivalente.
Sobre a questão de uma suposição de normalidade na correlação de Pearson, veja isso .
De maneira mais geral, outras pessoas elaboraram muito melhor do que eu sobre o tópico correlações paramétricas versus não paramétricas (também veja aqui ) e o que isso significa em relação a suposições distributivas.
fonte
cor.test(x, y, method = "spearman")
comcor.test(rank(x), rank(y), method = "pearson")
. Essas estimativas serão idênticas, independentemente dos dados que você escolher. Obrigado mesmo assim! :)