Por que uma correlação de postos de Pearson é válida, apesar da suposição de normalidade?

9

Atualmente, estou lendo suposições para correlações de Pearson. Uma suposição importante para o teste t subsequente parece ser que ambas as variáveis ​​provêm de distribuições normais; se não o fizerem, é recomendável o uso de medidas alternativas, como o Spearman rho. A correlação de Spearman é calculada como a correlação de Pearson, usando apenas as fileiras de X e Y em vez das próprias X e Y, correto?

Minha pergunta é: se as variáveis ​​de entrada em uma correlação de Pearson precisam ser normalmente distribuídas, por que o cálculo de uma correlação de Spearman é válido, mesmo que as variáveis ​​de entrada sejam classificadas? Minhas fileiras certamente não vêm de distribuições normais ...

A única explicação que cheguei até agora é que o significado de rho pode ser testado diferentemente do teste t de correlação de Pearson (de uma maneira que não requer normalidade), mas até agora não encontrei nenhuma fórmula. No entanto, quando executei alguns exemplos, os valores de p para rho e para o teste t da correlação de classificações de Pearson sempre corresponderam, exceto os últimos dígitos. Para mim, isso não parece um procedimento inovador e diferente.

Quaisquer explicações e idéias que você possa ter serão apreciadas!

GST95
fonte

Respostas:

7

A normalidade não é necessária para calcular uma correlação de Pearson; só que algumas formas de inferência sobre a quantidade populacional correspondente são baseadas em suposições normais (ICs e testes de hipóteses).

Se você não tiver normalidade, as propriedades implícitas dessa forma específica de inferência não serão mantidas.

No caso da correlação de Spearman, você não tem normalidade, mas tudo bem, porque os cálculos de inferência para a correlação de Spearman (como o teste de hipótese) não são baseados em uma suposição de normalidade.

Eles são derivados com base em um conjunto de classificações emparelhadas de uma distribuição bivariada contínua; neste caso, o teste de hipótese usa a distribuição de permutação da estatística de teste com base nas classificações.

Quando as suposições usuais para inferência com a correlação de Pearson se mantêm (normalidade bivariada), a correlação de Spearman geralmente é muito próxima (embora, em média, um pouco mais próxima de 0).

(Então, quando você poderia usar o Pearson, o Spearman geralmente se sairia bem. Se você tivesse quase os dados normais bivariados, além de alguma contaminação com algum outro processo (que causava discrepâncias), o Spearman seria uma maneira mais robusta de estimar a correlação em distribuição não contaminada.)

Glen_b -Reinstate Monica
fonte
Obrigado, a referência à distribuição de permutação é útil!
GST95
"o Spearman seria uma maneira mais robusta de estimar a correlação". Para apontar, Spearman estimaria a associação , NÃO a correlação linear.
landroni
11
ρρρ
11
@landroni ... Essa situação pode ocorrer em que você tem o processo principal que é bem comportado e algum processo de contaminação que pode ser muito extremo, mas só acontece ocasionalmente. Se você estiver interessado em estimar a correlação do processo não contaminado, a correlação de Pearson é muito suscetível à contaminação, em uma extensão muito maior do que a Spearman.
Glen_b -Reinstala Monica
2

quando executei alguns exemplos, os valores de p para rho e o teste t da correlação de Pearson de classificações sempre coincidiam, exceto os últimos dígitos

Bem, você está executando os exemplos errados então!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

abρb

Por outro lado, embora ae btenham uma correlação de classificação perfeita, o coeficiente de correlação de Pearson é menor que 1. Isso mostra que a correlação de Pearson não está refletindo as classificações.
Uma correlação de Pearson reflete uma função linear, uma correlação de classificação simplesmente uma função monotônica. No caso de dados normais, os dois se assemelham fortemente e suspeito que é por isso que seus dados não mostram grandes diferenças entre Spearman e Pearson.

Para um exemplo prático, considere o seguinte; você quer ver se as pessoas mais altas pesam mais. Sim, é uma pergunta boba ... mas apenas assuma que é com isso que você se importa. Agora, a massa não escala linearmente com o peso, pois as pessoas altas também são mais largas que as pequenas; então o peso não é uma função linear da altura. Alguém que é 10% mais alto que você é (em média) mais de 10% mais pesado. É por isso que o índice de massa corporal usa o cubo no denominador.
Consequentemente, você assumiria uma correlação linear para refletir imprecisa a relação altura / peso. Em contraste, a correlação de classificação é insensível às leis irritantes da física e da biologia neste caso; não reflete se as pessoas crescem mais linearmente à medida que ganham em altura, simplesmente reflete se as pessoas mais altas (mais altas na classificação em uma escala) são mais pesadas (mais altas na outra escala).

Um exemplo mais típico pode ser o das classificações de questionários do tipo Likert, como pessoas classificando algo como "perfeito / bom / decente / medíocre / ruim / horrível". "perfeito" está tão longe de "decente" quanto "decente" está em "ruim" na balança , mas podemos realmente dizer que a distância entre os dois é a mesma? Uma correlação linear não é necessariamente apropriada. A correlação de classificação é mais natural.

Para abordar sua pergunta mais diretamente: não, os valores de p para correlações de Pearson e Spearman não devem ser calculados de maneira diferente . Muito é diferente entre os dois, conceitualmente e numericamente, mas se a estatística do teste for equivalente, o valor de p será equivalente.

Sobre a questão de uma suposição de normalidade na correlação de Pearson, veja isso .
De maneira mais geral, outras pessoas elaboraram muito melhor do que eu sobre o tópico correlações paramétricas versus não paramétricas (também veja aqui ) e o que isso significa em relação a suposições distributivas.

jona
fonte
Obrigado! Da próxima vez, testarei mais os exemplos. :)
GST95
11
Não, espere, na verdade essa não era minha pergunta. Não comparei o método = "pearson" com a versão method = "spearman" de x e y. Eu comparei cor.test(x, y, method = "spearman")com cor.test(rank(x), rank(y), method = "pearson"). Essas estimativas serão idênticas, independentemente dos dados que você escolher. Obrigado mesmo assim! :)
GST95
@ GST95, a correlação de Spearman é exatamente a correlação de Pearson realizada em dados transformados por classificação. Seus dois "métodos" são realmente exatamente o mesmo método.
Dennis
@ Dennis, exatamente, eu não estava comparando os coeficientes rho (idênticos), mas os valores p para ver se eles foram obtidos com um teste t.
GST95