Quando devo usar cada um desses métodos para calcular a correlação?

8

Estou usando R para análise de dados. R fornece uma corrfunção para calcular a correlação. Esta função fornece três abordagens / algoritmos diferentes para estimar corrquais são Pearson, Spearman e Kendall. Quando devo usar cada um desses métodos? Quais fatores determinam qual método deve ser usado?

asheeshr
fonte
Embora isso esteja no contexto de R, a questão é realmente sobre a diferença entre três medidas estatísticas. Eu diria que migrar também.
Sean Owen
1
Esta pergunta já foi feita em stats.stackexchange.com/questions/45897/… (mas ainda não obteve respostas). Nosso site possui amplo material sobre correlação, especialmente comparando os coeficientes de Pearson e Spearman: consulte os resultados da pesquisa em stats.stackexchange.com/… .
whuber

Respostas:

10

O coeficiente produto-momento de Pearson (parâmetro pearson) mede a correlação linear entre variáveis. Portanto, é apropriado quando sua correlação suspeita é linear, que pode ser inspecionada visualmente com um gráfico.

O coeficiente de Kendall Tau (parâmetro de Kendall) e o coeficiente de correlação de Spearman (parâmetro de Spearman) são correlações de classificação de medidas. Portanto, a correlação entre as duas variáveis ​​não precisa ser linear. O método spearman é basicamente o método pearson, mas aplicado nas fileiras dos valores (a classificação de um valor é dada por sua posição após a classificação dos valores). O método kendal é construído basicamente como uma estatística na forma de uma relação entre o número adicional de pares ordenados e o número total de pares. Para o método kendal, por ser construído como uma estatística, também é possível usá-lo na estrutura do teste de hipóteses, com todos os benefícios (é chamado teste tau).

Todos esses métodos são instrumentos utilizados para inferir algo sobre as dependências entre variáveis ​​aleatórias. Veja mais na página dedicada da Wikipedia dedicada à Correlação e Dependência

rapaio
fonte
Também não é verdade que Spearman e Pearson também devam ser idênticos para relacionamentos lineares; portanto, em caso de dúvida, você pode usar Spearman e ter certeza de que não ficará surpreso se a correlação for não linear?
Cwharland
1
Para ser sincero, não sei se são iguais em relação linear. É certo que a Pearson está em primeiro lugar. No entanto, durante a transformação em posições, algumas coisas acontecem: a pearson se torna mais robusta para os valores extremos, a covariância é irremediavelmente alterada, a pearson incorpora possivelmente um ruído não independente (talvez gerado por fatores de confusão). Em geral, uso pearson para inferência baseada em linear, spearman para verificar se há algo além de linearidade, mais para ordinais (que faz sentido apenas para spearman).
Rapaio 14/05
@cwharland De fato, eles tendem a não ser iguais para relacionamentos lineares. Em amostras normais bivariadas correlacionadas (que têm a relação linear que você sugere), a correlação de Spearman é tipicamente (em média e em termos da mediana de sua distribuição) mais próxima de 0 que a de Pearson. Ambos são tendenciosos, mas o Pearson é menos.
Glen_b -Reinstar Monica