Quão robusto é o coeficiente de correlação de Pearson com violações da normalidade?

20

Os dados para certos tipos de variáveis ​​tendem a não ser normais quando medidos em populações específicas (por exemplo, níveis de depressão em uma população de pessoas com Transtorno Depressivo Maior). Dado que Pearson assume normalidade, quão robusta é a estatística do teste em condições de não normalidade?

Eu tenho um número de variáveis ​​para as quais eu gostaria de obter coeficientes de correlação, mas a assimetria Z para algumas dessas variáveis ​​é significativa em p <0,001 (e isso é para uma amostra relativamente pequena). Eu tentei algumas transformações, mas as melhorias nas distribuições são apenas marginais, na melhor das hipóteses.

Vou ter que ficar com análises não paramétricas? E não apenas para correlações, mas também para outros tipos de análise?

Archaeopteryx
fonte
Espere, o coeficiente de correlação de Pearson assume normalidade? Acho que não, e tenho usado em dados não normais. Simplesmente não é robusto para algumas coisas que acontecem com mais frequência em situações não-normais, mas há muitas situações não-normais em que não vejo problema em usar o coeficiente de correlação de Pearson.
Douglas Zare
1
Que a correlação de Pearson assume normalidade é o que muitos textos estatísticos afirmam. Ouvi em outro lugar que normalidade é uma suposição desnecessária para o r de Pearson. Quando executo as análises, tanto as de Pearson quanto as de Spearman produzem resultados relativamente semelhantes.
Archaeopteryx
O coeficiente de correlação de Spearman é o coeficiente de correlação de Pearson aplicado aos rankings não normais. Ainda não sei em que sentido você acredita que a Pearson exige normalidade. Talvez você possa dizer algumas coisas extras, caso esteja usando-o em uma distribuição normal multivariada.
Douglas Zare
Estou apenas usando-o para correlações bivariadas simples. Não sei por que se afirma que a normalidade é necessária. Os textos estatísticos que eu sempre li listam a normalidade como uma suposição da correlação de Pearson e recomendam o uso de Spearman para condições nas quais a não-normalidade é válida.
Archaeopteryx

Respostas:

20

Resposta curta: muito não robusta. A correlação é uma medida de dependência linear e, quando uma variável não pode ser escrita como uma função linear da outra (e ainda possui a distribuição marginal fornecida), você não pode ter uma correlação perfeita (positiva ou negativa). De fato, os possíveis valores das correlações podem ser severamente restringidos.

O problema é que, embora a correlação da população esteja sempre entre e , o intervalo exato atingível depende muito das distribuições marginais. Uma prova e demonstração rápidas:111

Alcance atingível da correlação

Se tem a função de distribuição e as funções de distribuição marginal e , existem alguns limites superiores e inferiores bastante bons para , chamados limites de Fréchet. Estes são (tente provar; não é muito difícil.)H F G H H - ( x , y ) H ( x , y ) H + ( x , y ) , H - ( x , y )(X,Y)HFGH

H(x,y)H(x,y)H+(x,y),
H(x,y)=max(F(x)+G(y)1,0)H+(x,y)=min(F(x),G(y)).

Os próprios limites são funções de distribuição. Deixe ter uma distribuição uniforme. O limite superior é a função de distribuição de e o limite inferior é a função de distribuição de .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U(X,Y)=(F(U),G(U))(F(U),G(1U))

Agora, usando esta variante na fórmula da covariância, vemos que obtemos a correlação máxima e mínima quando é igual a e , respectivamente, ou seja, quando é a (positivo ou negativo, respectivamente ) A função monótona de .H H + H - Y X

Cov(X,Y)=H(x,y)F(x)G(y)dxdy,
HH+HYX

Exemplos

Aqui estão alguns exemplos (sem provas):

  1. Quando e são normalmente distribuídos, obtém-se o máximo e mínimo quando tem a habitual distribuição normal bivariável onde é escrito como uma função linear de . Ou seja, obtemos o máximo para Aqui, os limites são (claro) e , independentemente do que os meios e os desvios e têm.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XXY(X,Y)YX-11XY

    Y=μY+σYXμXσX.
    11XY
  2. Quando e têm distribuições lognormal, o limite inferior nunca é atingível, pois isso implicaria que poderia ser escrito para alguns e positivos , e nunca pode ser negativo. Existem fórmulas (ligeiramente feias) para os limites exatos, mas deixe-me apenas dar um caso especial. Quando e têm distribuições lognormal padrão (o que significa que, quando exponenciadas, são normais padrão), o intervalo atingível é . (Em geral, o limite superior também é restrito.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] [ - 0,37 , 1 ]XYYY=abXabYXY[1/e,1][0.37,1]

  3. Quando tem uma distribuição normal padrão e tem uma distribuição normal normal, os limites de correlação são Y ± 1XY

    ±1e-10,76.

Observe que todos os limites são para a correlação da população . A correlação da amostra pode facilmente se estender para fora dos limites, especialmente para amostras pequenas (exemplo rápido: tamanho da amostra 2).

Estimando os limites de correlação

Na verdade, é muito fácil estimar os limites superior e inferior da correlação se você puder simular a partir das distribuições marginais. Para o último exemplo acima, podemos usar este código R:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Se tivermos apenas dados reais e não soubermos as distribuições marginais, ainda poderemos usar o método acima. Não é um problema que as variáveis ​​sejam dependentes desde que os pares de observações sejam dependentes. Mas ajuda ter muitos pares de observação.

Transformando os dados

É claro que é possível transformar os dados para serem (marginalmente) normalmente distribuídos e, em seguida, calcular a correlação nos dados transformados. O problema é de interpretabilidade. (E por que usar a distribuição normal em vez de qualquer outra distribuição em que  pode ser uma função linear de ?) Para dados que são normalmente distribuídos bivariados, a correlação tem uma boa interpretação (seu quadrado é a variação de uma variável explicada pela outra ) Este não é o caso aqui.XYX

O que você realmente está fazendo aqui é criar uma nova medida de dependência que não depende das distribuições marginais; ou seja, você está criando uma medida de dependência baseada em cópula . Já existem várias dessas medidas, sendo as mais conhecidas ρ de Spearman  e τ de Kendall  . (Se você está realmente interessado em conceitos de dependência, não é uma má idéia procurar cópulas.)

Em conclusão

Algumas considerações finais e conselhos: basta olhar para a correlação com um grande problema: faz você parar de pensar. Observar gráficos de dispersão, por outro lado, geralmente faz você começar a pensar. Meu conselho principal seria, portanto, examinar os gráficos de dispersão e tentar modelar explicitamente a dependência.

Dito isto, se você precisar de uma simples medida semelhante à correlação, eu usaria apenas o ρ de Spearman  (e o intervalo de confiança e testes associados). Seu alcance não é restrito. Mas esteja ciente da dependência não monótona. O artigo da Wikipedia sobre correlação tem alguns bons gráficos ilustrando possíveis problemas.

Karl Ove Hufthammer
fonte
1
+1 Esta ótima contribuição aborda claramente vários problemas recorrentes associados a correlações. Agradeço especialmente as observações no primeiro parágrafo final sobre parar / começar a pensar.
whuber
A não robustez permaneceria até assintoticamente? Nesse caso, o wiki está incorreto ao dizer que "[A distribuição t do aluno para uma simples transformação de r] também é válida, mesmo que os valores observados não sejam normais, desde que o tamanho da amostra não seja muito pequeno"?
max
5

Como são as distribuições dessas variáveis ​​(além de distorcidas)? Se a única não normalidade é a assimetria, uma transformação de algum tipo deve ajudar. Porém, se essas variáveis ​​tiverem muita aglomeração, nenhuma transformação as levará à normalidade. Se a variável não for contínua, o mesmo será verdadeiro.

Qual a robustez da correlação com violações? Dê uma olhada no quarteto Anscombe. Ilustra vários problemas muito bem.

Quanto a outros tipos de análise, isso depende da análise. Se as variáveis ​​assimétricas são variáveis ​​independentes em uma regressão, por exemplo, pode não haver um problema - você precisa observar os resíduos.

Peter Flom - Restabelece Monica
fonte
1
Algumas das variáveis ​​também têm problemas com a curtose, mas a assimetria é o maior problema. Eu tentei transformações de raiz quadrada e log nas variáveis ​​do problema, mas elas não melhoram muito. De fato, as distribuições parecem quase exatamente iguais, mas com maior acúmulo de pontuações.
Archaeopteryx
1
Isso parece muito estranho. Você pode postar a média, mediana, assimetria, curtose da variável em questão? Ou (melhor ainda) um gráfico de densidade disso?
Peter Flom - Restabelece Monica
6
Independentemente de a distribuição de (X, Y) ser bivariada normal ou não, a correlação de Pearson é uma medida do grau de linearidade. A distribuição de probabilidade para a estimativa da amostra dependerá da normalidade.
Michael R. Chernick 29/09/12
3
Essas variáveis ​​não são muito assimétricas. Você pode deixá-los como estão.
Peter Flom - Restabelece Monica
3
Não se preocupe com o significado aqui. Normalmente, a inclinação e a curtose <-2 ou> 2 são consideradas como talvez necessitando de transformação. Melhor ainda é olhar para gráficos, por exemplo, plotagem normal quantil e plotagem de densidade com kernel para ver o que está acontecendo.
Peter Flom - Restabelece Monica