O que poderia causar grandes diferenças no coeficiente de correlação entre a correlação de Pearson e Spearman para um determinado conjunto de dados?

22

O coeficiente de Pearson entre duas variáveis ​​é bastante alto (r = 0,65). Mas quando eu classifico os valores das variáveis ​​e corro a correlação de Spearman, o valor de cofficient é muito menor (r = 0,30).

  • Qual é a interpretação disso?
user3671
fonte
5
Geralmente, é uma boa idéia mostrar um gráfico de dispersão dos dados antes de interpretar um coeficiente de correlação.
chl
Qual é o seu tamanho da amostra?
21411 Jeremy

Respostas:

37

Por que a grande diferença

  • Se seus dados são normalmente distribuídos ou uniformemente distribuídos, eu acho que a correlação de Spearman e Pearson deve ser bastante semelhante.

  • Se eles estão apresentando resultados muito diferentes, como no seu caso (0,65 versus 0,30), meu palpite é que você distorceu os dados ou discrepantes, e que discrepantes estão levando a correlação de Pearson a ser maior que a correlação de Spearman. Ou seja, valores muito altos em X podem co-ocorrer com valores muito altos em Y.

  • @chl está no local. Seu primeiro passo deve ser observar o gráfico de dispersão.
  • Em geral, uma grande diferença entre Pearson e Spearman é uma bandeira vermelha sugerindo que
    • a correlação de Pearson pode não ser um resumo útil da associação entre suas duas variáveis ​​ou
    • você deve transformar uma ou ambas as variáveis ​​antes de usar a correlação de Pearson ou
    • você deve remover ou ajustar os valores discrepantes antes de usar a correlação de Pearson.

Perguntas relacionadas

Veja também estas perguntas anteriores sobre as diferenças entre a correlação de Spearman e Pearson:

Exemplo simples de R

A seguir, é apresentada uma simulação simples de como isso pode ocorrer. Observe que o caso abaixo envolve um único outlier, mas você pode produzir efeitos semelhantes com vários outliers ou dados distorcidos.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

O que dá essa saída

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

A análise de correlação mostra que, sem Spearman e Pearson discrepantes, são bastante semelhantes e, com os discrepantes extremos, a correlação é bem diferente.

O gráfico abaixo mostra como tratar os dados como fileiras remove a extrema influência do discrepante, levando Spearman a ser semelhante tanto com quanto sem discrepante, enquanto Pearson é bem diferente quando o discus é adicionado. Isso destaca por que Spearman é frequentemente chamado de robusto.

insira a descrição da imagem aqui

Jeromy Anglim
fonte