Os dados para certos tipos de variáveis tendem a não ser normais quando medidos em populações específicas (por exemplo, níveis de depressão em uma população de pessoas com Transtorno Depressivo Maior). Dado que Pearson assume normalidade, quão robusta é a estatística do teste em condições de não normalidade?
Eu tenho um número de variáveis para as quais eu gostaria de obter coeficientes de correlação, mas a assimetria Z para algumas dessas variáveis é significativa em p <0,001 (e isso é para uma amostra relativamente pequena). Eu tentei algumas transformações, mas as melhorias nas distribuições são apenas marginais, na melhor das hipóteses.
Vou ter que ficar com análises não paramétricas? E não apenas para correlações, mas também para outros tipos de análise?
fonte
Respostas:
Resposta curta: muito não robusta. A correlação é uma medida de dependência linear e, quando uma variável não pode ser escrita como uma função linear da outra (e ainda possui a distribuição marginal fornecida), você não pode ter uma correlação perfeita (positiva ou negativa). De fato, os possíveis valores das correlações podem ser severamente restringidos.
O problema é que, embora a correlação da população esteja sempre entre e , o intervalo exato atingível depende muito das distribuições marginais. Uma prova e demonstração rápidas:1- 1 1
Alcance atingível da correlação
Se tem a função de distribuição e as funções de distribuição marginal e , existem alguns limites superiores e inferiores bastante bons para , chamados limites de Fréchet. Estes são (tente provar; não é muito difícil.)H F G H H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) , H - ( x , y )( X, Y) H F G H
Os próprios limites são funções de distribuição. Deixe ter uma distribuição uniforme. O limite superior é a função de distribuição de e o limite inferior é a função de distribuição de .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )você ( X, Y) = ( F-( U) , G-( U) )) ( F-( - U) , G-( 1 - U) ))
Agora, usando esta variante na fórmula da covariância, vemos que obtemos a correlação máxima e mínima quando é igual a e , respectivamente, ou seja, quando é a (positivo ou negativo, respectivamente ) A função monótona de .H H + H - Y X
Exemplos
Aqui estão alguns exemplos (sem provas):
Quando e são normalmente distribuídos, obtém-se o máximo e mínimo quando tem a habitual distribuição normal bivariável onde é escrito como uma função linear de . Ou seja, obtemos o máximo para Aqui, os limites são (claro) e , independentemente do que os meios e os desvios e têm.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XX Y ( X, Y) Y X -11XY
Quando e têm distribuições lognormal, o limite inferior nunca é atingível, pois isso implicaria que poderia ser escrito para alguns e positivos , e nunca pode ser negativo. Existem fórmulas (ligeiramente feias) para os limites exatos, mas deixe-me apenas dar um caso especial. Quando e têm distribuições lognormal padrão (o que significa que, quando exponenciadas, são normais padrão), o intervalo atingível é . (Em geral, o limite superior também é restrito.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]X Y Y Y= a - b X uma b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]
Quando tem uma distribuição normal padrão e tem uma distribuição normal normal, os limites de correlação são Y ± 1X Y
Observe que todos os limites são para a correlação da população . A correlação da amostra pode facilmente se estender para fora dos limites, especialmente para amostras pequenas (exemplo rápido: tamanho da amostra 2).
Estimando os limites de correlação
Na verdade, é muito fácil estimar os limites superior e inferior da correlação se você puder simular a partir das distribuições marginais. Para o último exemplo acima, podemos usar este código R:
Se tivermos apenas dados reais e não soubermos as distribuições marginais, ainda poderemos usar o método acima. Não é um problema que as variáveis sejam dependentes desde que os pares de observações sejam dependentes. Mas ajuda ter muitos pares de observação.
Transformando os dados
É claro que é possível transformar os dados para serem (marginalmente) normalmente distribuídos e, em seguida, calcular a correlação nos dados transformados. O problema é de interpretabilidade. (E por que usar a distribuição normal em vez de qualquer outra distribuição em que pode ser uma função linear de ?) Para dados que são normalmente distribuídos bivariados, a correlação tem uma boa interpretação (seu quadrado é a variação de uma variável explicada pela outra ) Este não é o caso aqui.XY X
O que você realmente está fazendo aqui é criar uma nova medida de dependência que não depende das distribuições marginais; ou seja, você está criando uma medida de dependência baseada em cópula . Já existem várias dessas medidas, sendo as mais conhecidas ρ de Spearman e τ de Kendall . (Se você está realmente interessado em conceitos de dependência, não é uma má idéia procurar cópulas.)
Em conclusão
Algumas considerações finais e conselhos: basta olhar para a correlação com um grande problema: faz você parar de pensar. Observar gráficos de dispersão, por outro lado, geralmente faz você começar a pensar. Meu conselho principal seria, portanto, examinar os gráficos de dispersão e tentar modelar explicitamente a dependência.
Dito isto, se você precisar de uma simples medida semelhante à correlação, eu usaria apenas o ρ de Spearman (e o intervalo de confiança e testes associados). Seu alcance não é restrito. Mas esteja ciente da dependência não monótona. O artigo da Wikipedia sobre correlação tem alguns bons gráficos ilustrando possíveis problemas.
fonte
Como são as distribuições dessas variáveis (além de distorcidas)? Se a única não normalidade é a assimetria, uma transformação de algum tipo deve ajudar. Porém, se essas variáveis tiverem muita aglomeração, nenhuma transformação as levará à normalidade. Se a variável não for contínua, o mesmo será verdadeiro.
Qual a robustez da correlação com violações? Dê uma olhada no quarteto Anscombe. Ilustra vários problemas muito bem.
Quanto a outros tipos de análise, isso depende da análise. Se as variáveis assimétricas são variáveis independentes em uma regressão, por exemplo, pode não haver um problema - você precisa observar os resíduos.
fonte