O que indica quando a correlação de Spearman é uma quantidade definida menor que Pearson?

12

Eu tenho vários conjuntos de dados relacionados. As correlações de Pearson entre pares deles são tipicamente definitivamente maiores que as correlações de lanceiros. Isso sugere que qualquer correlação é linear, mas pode-se esperar que, mesmo que pearson e spearman sejam os mesmos. O que significa quando existe uma lacuna definida entre a correlação pearson e spearman e a pearson é maior? Este parece ser um recurso consistente nos meus conjuntos de dados.

John Robertson
fonte
Pergunta muito parecida, com ótima resposta aqui
Colin T Bowers

Respostas:

14

A correlação de Spearman é apenas a correlação de Pearson usando as classificações (estatísticas da ordem) em vez dos valores numéricos reais. A resposta para sua pergunta é que eles não estão medindo a mesma coisa. Pearson: tendência linear, Spearman: tendência monotônica. O fato de a correlação de Pearson ser mais alta significa apenas que a correlação linear é maior que a correlação de classificação. Provavelmente, isso se deve a observações influentes nas caudas da distribuição que têm grande influência em relação aos seus valores classificados. Testes de associação usando a correlação de Pearson são de maior poder quando a linearidade se mantém nos dados.

AdamO
fonte
1
Eu sabia que lanceiro eram apenas pérolas nas fileiras. Eu preciso ver se pode haver outras rotas que possam causar isso também, mas observações de cauda influentes que são mais linearmente correlacionadas do que a maioria dos dados, mas que perdem sua influência quando substituídas por suas classificações definitivamente causariam o que eu sou vendo.
22612 John Robertson
0

A Correlação de Pearson assume várias suposições para que seja precisa: 1) Cada variável é normalmente distribuída; 2) Homocedasticidade, a variação de cada variável permanece constante; e 3) Linearidade, significando que um gráfico de dispersão representando o relacionamento mostra pontos de dados agrupados simetricamente em torno da linha de regressão.

A correlação de Spearman é uma alternativa não-paramétrica à de Pearson, com base na classificação das observações. A correlação de Spearman permite que você relaxe todas as três suposições sobre seu conjunto de dados e obtenha correlações ainda razoavelmente precisas.

O que seus dados sugerem é que provavelmente quebra materialmente uma ou mais das suposições mencionadas materialmente, de modo que as duas correlações diferem significativamente.

Dado que você tem uma grande lacuna entre as duas correlações, investigue se as variáveis ​​do seu conjunto de dados são normalmente distribuídas, homocedásticas e lineares em um gráfico de dispersão.

A investigação acima facilitará sua decisão sobre se o coeficiente de correlação Spearman ou Pearson é o mais representativo.

Sympa
fonte
2
Você provavelmente está pensando no teste de inferência associado usando a distribuição , não a medida descritiva. No entanto, esse teste é normalmente descrito como tendo suposições diferentes das que você declarou. Por exemplo, normalidade bivariada, uma suposição mais forte do que as distribuições individualmente normais. Forneça referências para suas declarações. t
Caracal
4
Incorreta. A inferência na correlação de Pearson não requer nenhuma dessas suposições. Pode-se ter uma relação curvilínea com dados heterocedásticos e não normais e o teste de correlação de Pearson (que é equivalente à inferência em um modelo de regressão linear) é acionado para detectar a tendência de primeira ordem. A interpretação da correlação de Pearson como força da tendência de primeira ordem ainda se mantém. Existem poucas circunstâncias em que a tendência de primeira ordem medida pela correlação de Pearson não é adequada para uma análise.
Adamo