Por que a correlação zero não implica necessariamente independência

41

Se duas variáveis ​​têm correlação 0, por que elas não são necessariamente independentes? As variáveis ​​correlacionadas com zero são independentes em circunstâncias especiais? Se possível, estou procurando uma explicação intuitiva, não altamente técnica.

Vencedor
fonte
10
Correlação é uma medida de dependência linear (associação). é possível que duas variáveis ​​aleatórias sejam não correlacionadas, mas não linearmente dependentes.
Mark L. Stone
Explicação intuitiva -> math.stackexchange.com/questions/444408/…
Siddhesh
6
A correlação zero implica independência se as variáveis ​​forem multivariadas normais. Este não é o mesmo que cada variável sendo normal - veja aqui para alguns gráficos de dispersão das variáveis normais de zero-correlacionados, mas dependentes (cada variável é individualmente normal)
Glen_b
11
A correlação (não qualificada) pode incluir correlação de classificação, etc., para a qual a dependência monotônica é o problema, e assim por diante.
Nick Cox
11
Para uma perspectiva, eu recomendo que você veja a "correlação à distância" da Wikipedia como uma medida de independência.
ttnphns

Respostas:

41

A correlação mede a associação linear entre duas variáveis ​​fornecidas e não tem obrigação de detectar nenhuma outra forma de associação.

Portanto, essas duas variáveis ​​podem estar associadas de várias outras formas não lineares e a correlação não pode distinguir dos casos independentes.

XP(X=x)=1/3x=1,0,1Y=X2

Marcelo Ventura
fonte
11
Eu estava procurando evidências de variações aleatórias não correlacionadas, mas dependentes, mas nenhuma das respostas diretas à minha pergunta revelou fatos intuitivos. sua resposta, por outro lado, me dá um ângulo muito bom para pensar sobre isso, muito obrigado!
stucash 19/04
11
@stucash meu prazer! Foi um exemplo de contador antigo que aprendi
Marcelo Ventura
23

Existe uma falta generalizada de rigor no uso da palavra "correlação" pela simples razão de que ela pode ter suposições e significados muito diferentes. O uso mais simples, mais solto e mais comum é o fato de existir uma vaga associação, relacionamento ou falta de independência entre um par estático de variáveis ​​aleatórias.

Aqui, a métrica padrão mencionada é geralmente a correlação de Pearson , que é uma medida padronizada de associação linear em pares entre duas variáveis ​​continuamente distribuídas. Um dos usos mais comuns da Pearson é denunciá-la como uma porcentagem. Definitivamente, não é uma porcentagem. A correlação de Pearson , r , varia entre -1,0 e +1,0, em que 0 significa que não há associação linear . Outros problemas não tão amplamente reconhecidos com o uso da correlação de Pearson como padrão é que ela é realmente uma medida de linearidade bastante rigorosa e não robusta, que exige variáveis ​​com intervalos de escala como entrada (consulte o excelente artigo de Paul Embrechts sobreCorrelação e dependência no gerenciamento de riscos: propriedades e armadilhas aqui: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).

Embrechts observa que existem muitas suposições falaciosas sobre dependência que começam com suposições da estrutura subjacente e da forma geométrica desses relacionamentos:

Essas falácias surgem de uma ingênua suposição de que as propriedades de dependência do mundo elíptico também se mantêm no mundo não elíptico

Embrechts aponta cópulas como uma classe muito mais ampla de métricas de dependência usadas em finanças e gerenciamento de riscos, das quais a correlação de Pearson é apenas um tipo.

O departamento de Estatísticas da Columbia passou o ano acadêmico 2013-2014 focado no desenvolvimento de um entendimento mais profundo das estruturas de dependência: por exemplo, linear, não linear, monotônico, hierárquico, paramétrico, não paramétrico, potencialmente altamente complexo e com grandes diferenças de escala. O ano terminou com um workshop e conferência de três dias que reuniram a maioria dos principais colaboradores neste campo ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 )

Esses colaboradores incluíram os Irmãos Reshef, agora famosos pelo artigo científico de 2011 Detectando novas associações em grandes conjuntos de dados http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf que foi amplamente criticado (consulte AndrewGelman.com para obter uma boa visão geral, publicada simultaneamente com o evento Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Os Reshefs abordaram todas essas críticas em sua apresentação (disponível no site da conferência em Columbia), bem como um algoritmo MIC muito mais eficiente.

Muitos outros estatísticos importantes se apresentaram neste evento, incluindo Gabor Szekely, agora na NSF em DC. Szekely desenvolveu suas correlações de distância e distância parcial . Deep Mukhopadhay, Temple U, apresentando seu Algoritmo Estatístico Unificado - uma estrutura para algoritmos unificados de ciência de dados - com base no trabalho realizado com Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . E muitos outros. Para mim, um dos temas mais interessantes foi a grande alavancagem e o uso do Reproducing Kernel Hilbert Space (RKHS) e o qui-quadrado. Se houve uma abordagem modal para estruturas de dependência nesta conferência, foi o RKHS.

Os manuais típicos de introdução à estatística são superficiais no tratamento da dependência, geralmente contando com apresentações do mesmo conjunto de visualizações de relações circulares ou parabólicas. Os textos mais sofisticados serão aprofundados no Quarteto de Anscombe , uma visualização de quatro conjuntos de dados diferentes, possuindo propriedades estatísticas simples e semelhantes, mas com relações extremamente diferentes: https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Uma das grandes coisas deste workshop foi a multiplicidade de estruturas e relacionamentos de dependência visualizados e apresentados, indo muito além do tratamento superficial padrão. Por exemplo, os Reshefs tinham dezenas de gráficos em miniatura que representavam apenas uma amostra das possíveis não linearidades. Mukhopadhay profundo tinha visuais impressionantes de relacionamentos altamente complexos que mais pareciam uma visão de satélite do Himalaia. Os autores de estatísticas e de livros didáticos de ciência de dados precisam tomar nota.

Saindo da conferência de Columbia com o desenvolvimento e a visualização dessas estruturas de dependência altamente complexas, emparelhadas, fiquei questionando a capacidade de modelos estatísticos multivariados para capturar essas não linearidades e complexidades.

Mike Hunter
fonte
2
Acabei de me deparar com essa excelente e exaustiva discussão sobre medidas de associação no Quora: quora.com/…
Mike Hunter
6

Depende da sua definição exata de "correlação", mas não é muito difícil construir casos degenerados. "Independente" pode significar algo como "nenhum poder preditivo, jamais", tanto quanto "correlação linear".

y=sin(2000x)x[0,1)

Andrew Charneski
fonte
3

Basicamente, dependência de Y em X significa que a distribuição dos valores de Y depende de alguma forma do valor de X. Essa dependência pode estar no valor médio de Y (o caso usual apresentado na maioria das respostas) ou em qualquer outra característica de Y.

Por exemplo, seja X 0 ou 1. Se X = 0, Y seja 0, se X = 1 for -1, 0 ou 1 (mesma probabilidade). X e Y não estão correlacionados. Em média, Y não depende de X porque, qualquer que seja o valor X, a média de Y é 0. Mas, claramente, a distribuição dos valores de Y depende do valor de X. Neste caso, por exemplo, a variação de Y é 0 quando X = 0 e> 0 quando X = 1, portanto, há pelo menos uma dependência da variação, ou seja, existe uma dependência.

Portanto, a correlação linear mostra apenas um tipo de dependência da média (dependência linear), que por sua vez é apenas um caso especial de dependência.

Karpablanca
fonte