Eu tenho vários conjuntos de dados relacionados. As correlações de Pearson entre pares deles são tipicamente definitivamente maiores que as correlações de lanceiros. Isso sugere que qualquer correlação é linear, mas pode-se esperar que, mesmo que pearson e spearman sejam os mesmos. O que significa quando existe uma lacuna definida entre a correlação pearson e spearman e a pearson é maior? Este parece ser um recurso consistente nos meus conjuntos de dados.
correlation
spearman-rho
pearson-r
John Robertson
fonte
fonte
Respostas:
A correlação de Spearman é apenas a correlação de Pearson usando as classificações (estatísticas da ordem) em vez dos valores numéricos reais. A resposta para sua pergunta é que eles não estão medindo a mesma coisa. Pearson: tendência linear, Spearman: tendência monotônica. O fato de a correlação de Pearson ser mais alta significa apenas que a correlação linear é maior que a correlação de classificação. Provavelmente, isso se deve a observações influentes nas caudas da distribuição que têm grande influência em relação aos seus valores classificados. Testes de associação usando a correlação de Pearson são de maior poder quando a linearidade se mantém nos dados.
fonte
A Correlação de Pearson assume várias suposições para que seja precisa: 1) Cada variável é normalmente distribuída; 2) Homocedasticidade, a variação de cada variável permanece constante; e 3) Linearidade, significando que um gráfico de dispersão representando o relacionamento mostra pontos de dados agrupados simetricamente em torno da linha de regressão.
A correlação de Spearman é uma alternativa não-paramétrica à de Pearson, com base na classificação das observações. A correlação de Spearman permite que você relaxe todas as três suposições sobre seu conjunto de dados e obtenha correlações ainda razoavelmente precisas.
O que seus dados sugerem é que provavelmente quebra materialmente uma ou mais das suposições mencionadas materialmente, de modo que as duas correlações diferem significativamente.
Dado que você tem uma grande lacuna entre as duas correlações, investigue se as variáveis do seu conjunto de dados são normalmente distribuídas, homocedásticas e lineares em um gráfico de dispersão.
A investigação acima facilitará sua decisão sobre se o coeficiente de correlação Spearman ou Pearson é o mais representativo.
fonte