Como escolher entre a correlação de Pearson e Spearman?

119

Como sei quando escolher entre o Spearman e o de Pearson ? Minha variável inclui satisfação e as pontuações foram interpretadas usando a soma das pontuações. No entanto, essas pontuações também podem ser classificadas.ρr

ameba
fonte
2
Veja também esta pergunta em Pearson contra Spearman para dados não-normal stats.stackexchange.com/questions/3730/...
Jeromy Anglim
1
em caso de dados normais, produza pearson. em caso de dados não normais, produza o spearman.

Respostas:

137

Se você deseja explorar seus dados, é melhor calcular ambos, pois a relação entre as correlações de Spearman (S) e Pearson (P) fornecerá algumas informações. Resumidamente, S é computado em fileiras e, portanto, descreve relações monotônicas, enquanto P está em valores verdadeiros e representa relações lineares.

Como exemplo, se você definir:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

Isso ocorre porque aumenta monotonicamente com portanto a correlação de Spearman é perfeita, mas não linearmente, portanto a correlação de Pearson é imperfeita. yx

corr(x,log(y),'type','Pearson');  % will equal 1

Fazer as duas coisas é interessante porque se você tem S> P, isso significa que você tem uma correlação que é monotônica, mas não linear. Como é bom ter linearidade nas estatísticas (é mais fácil), você pode tentar aplicar uma transformação em (como um log).y

Espero que isso ajude a facilitar a compreensão das diferenças entre os tipos de correlações.

Bonoboticians
fonte
2
Estou supondo que isso é um dado do que você já disse, mas só quero confirmar que não é possível que S <P ocorra.
Jonathan Thiele
9
@JonathanThiele é perfeitamente possível ter S <P. Por exemplo, os conjuntos II e IV do Quarteto de Anscombe demonstram esse comportamento. Além disso, consulte esta pergunta: stats.stackexchange.com/questions/27127/…
atomicules
1
@atomicules Obrigado pela informação. Acabei de verificar as correlações no quarteto de Anscombe, e seu link foi útil.
23612 Jonathan Thiele
Como você pode incluir as correlações de Pearson e Spearson em uma apresentação corrgram? - - Estou pensando aqui no caso stackoverflow.com/a/40523080/54964 - - Eu tenho um problema multifatorial, então acho que Spearson seria válido para incluir e não posso ir apenas com Pearson.
Léo Léopold Hertz 준영
Essa é a abordagem que costumo adotar, pois tem o benefício adicional de evitar justificativas meticulosas de um teste em relação a outro, particularmente ao testar a correlação entre muitas variáveis. Em vez de examinar cada variável para verificar se as suposições da correlação de Pearson ou Spearman são atendidas, basta executar as duas coisas em tudo. Em muitas aplicações práticas, elas fornecerão medidas semelhantes de significância de associação; portanto, você só precisa aprofundar-se nas relativamente poucas instâncias em que seus resultados diferem muito e esses são os casos interessantes para aprender de qualquer maneira.
Nuclear Wang
50

A resposta mais curta e correta é:

Relação linear de benchmarks de Pearson , relação monotônica de benchmarks de Spearman (poucos infinitos em casos mais gerais, mas com alguma troca de poder).

y=1x+0 0


fonte
35

Isso acontece frequentemente nas estatísticas: há uma variedade de métodos que podem ser aplicados em sua situação e você não sabe qual escolher. Você deve basear sua decisão nos prós e contras dos métodos em consideração e nas especificidades do seu problema, mas mesmo assim a decisão é geralmente subjetiva, sem resposta "correta" acordada. Geralmente, é uma boa idéia experimentar os métodos que parecerem razoáveis ​​e que sua paciência permita e veja quais oferecem os melhores resultados no final.

A diferença entre a correlação de Pearson e a correlação de Spearman é que o Pearson é mais apropriado para medições tiradas de uma escala de intervalo , enquanto o Spearman é mais apropriado para medições tiradas de escalas ordinais . Exemplos de escalas de intervalo incluem "temperatura em Farenheit" e "comprimento em polegadas", nas quais as unidades individuais (1 deg F, 1 in) são significativas. Coisas como "índices de satisfação" tendem a ser do tipo ordinal, pois, embora esteja claro que "5 felicidade" é mais feliz que "3 felicidade", não está claro se você poderia dar uma interpretação significativa de "1 unidade de felicidade". Mas quando você soma Em muitas medidas do tipo ordinal, que é o que você tem no seu caso, você acaba com uma medida que na verdade não é ordinal nem intervalo e é difícil de interpretar.

Eu recomendaria que você converta suas pontuações de satisfação em pontuações quantílicas e depois trabalhe com as somas dessas, pois isso fornecerá dados um pouco mais acessíveis à interpretação. Mas, mesmo neste caso, não está claro se Pearson ou Spearman seriam mais apropriados.

charles.y.zheng
fonte
2
Que tal, por exemplo ... apreensão de comunicação? Uma apreensão alta não tem diferença definida com uma apreensão muito alta, certo? Mas vi que a variável foi correlacionada com outras variáveis ​​usando o r de Pearson. Está tudo bem? Obrigado!
28

Encontrei um caso de canto interessante hoje.

Se observarmos um número muito pequeno de amostras, a diferença entre Spearman e Pearson pode ser dramática.

No caso abaixo, os dois métodos relatam uma correlação exatamente oposta .

insira a descrição da imagem aqui

Algumas regras rápidas para decidir Spearman vs. Pearson:

  • As suposições de Pearsons são variação e linearidade constantes (ou algo razoavelmente próximo disso) e, se não forem cumpridas, pode valer a pena tentar Spearmans.
  • O exemplo acima é um caso de canto que só aparece se houver um punhado (<5) de pontos de dados. Se houver> 100 pontos de dados e os dados forem lineares ou próximos, Pearson será muito parecido com Spearman.
  • Se você acha que a regressão linear é um método adequado para analisar seus dados, a saída de Pearsons corresponderá ao sinal e à magnitude de uma inclinação de regressão linear (se as variáveis ​​forem padronizadas).
  • Se seus dados tiverem alguns componentes não lineares que a regressão linear não capta, tente primeiro endireitar os dados em uma forma linear aplicando uma transformação (talvez log e). Se isso não funcionar, Spearman pode ser apropriado.
  • Eu sempre tento o primeiro de Pearson e, se isso não funcionar, tento Spearman.
  • Você pode adicionar mais regras práticas ou corrigir as que acabei de deduzir? Eu fiz dessa pergunta uma Wiki da comunidade para que você possa fazer isso.

ps Aqui está o código R para reproduzir o gráfico acima:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))
Contango
fonte
7

Ao concordar com a resposta de Charles, eu sugeriria (em um nível estritamente prático) que você calcule ambos os coeficientes e analise as diferenças. Em muitos casos, eles serão exatamente iguais, portanto você não precisa se preocupar.

Se, no entanto, forem diferentes, será necessário verificar se você atendeu ou não às suposições de Pearsons (variação e linearidade constantes) e, se não forem atendidas, provavelmente será melhor usar Spearmans.

richiemorrisroe
fonte
3
como aprendiz de máquina, certamente não sou um santo em relação à correção estatística, mas verificar as suposições APÓS a realização do teste me parece uma heresia.
Steffen
7
@ steffen eu acho que está bem. Uma suposição de regressão é que os resíduos são normalmente distribuídos. Como você verificaria isso antes de executar a regressão?
Glen
1
@ Glen: Neste caso, não posso. Porém, quando comparo a qualidade de diferentes modelos, geralmente prefiro verificar a suposição (por exemplo, aproximadamente normalmente distribuída) antes de executar o teste para reduzir a tendência a relaxar as suposições em favor de determinados resultados do teste. Chame de prevenção de um truque mental. Eu acho que sou só eu;).
Steffen
1
@ steffen: você está correto quanto à heresia, mas se os dois procedimentos derem os mesmos resultados, é uma questão de gosto usar, mas se eles não verificarem as suposições e onde falharem, geralmente podem fornecer informações úteis sobre os dados. Pessoalmente, uso o lanceiro sempre que possível, mas essa não é uma prática comum em meu campo.
richiemorrisroe