Se duas variáveis têm correlação 0, por que elas não são necessariamente independentes? As variáveis correlacionadas com zero são independentes em circunstâncias especiais? Se possível, estou procurando uma explicação intuitiva, não altamente técnica.
correlation
independence
Vencedor
fonte
fonte
Respostas:
A correlação mede a associação linear entre duas variáveis fornecidas e não tem obrigação de detectar nenhuma outra forma de associação.
Portanto, essas duas variáveis podem estar associadas de várias outras formas não lineares e a correlação não pode distinguir dos casos independentes.
fonte
Existe uma falta generalizada de rigor no uso da palavra "correlação" pela simples razão de que ela pode ter suposições e significados muito diferentes. O uso mais simples, mais solto e mais comum é o fato de existir uma vaga associação, relacionamento ou falta de independência entre um par estático de variáveis aleatórias.
Aqui, a métrica padrão mencionada é geralmente a correlação de Pearson , que é uma medida padronizada de associação linear em pares entre duas variáveis continuamente distribuídas. Um dos usos mais comuns da Pearson é denunciá-la como uma porcentagem. Definitivamente, não é uma porcentagem. A correlação de Pearson , r , varia entre -1,0 e +1,0, em que 0 significa que não há associação linear . Outros problemas não tão amplamente reconhecidos com o uso da correlação de Pearson como padrão é que ela é realmente uma medida de linearidade bastante rigorosa e não robusta, que exige variáveis com intervalos de escala como entrada (consulte o excelente artigo de Paul Embrechts sobreCorrelação e dependência no gerenciamento de riscos: propriedades e armadilhas aqui: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).
Embrechts observa que existem muitas suposições falaciosas sobre dependência que começam com suposições da estrutura subjacente e da forma geométrica desses relacionamentos:
Embrechts aponta cópulas como uma classe muito mais ampla de métricas de dependência usadas em finanças e gerenciamento de riscos, das quais a correlação de Pearson é apenas um tipo.
O departamento de Estatísticas da Columbia passou o ano acadêmico 2013-2014 focado no desenvolvimento de um entendimento mais profundo das estruturas de dependência: por exemplo, linear, não linear, monotônico, hierárquico, paramétrico, não paramétrico, potencialmente altamente complexo e com grandes diferenças de escala. O ano terminou com um workshop e conferência de três dias que reuniram a maioria dos principais colaboradores neste campo ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 )
Esses colaboradores incluíram os Irmãos Reshef, agora famosos pelo artigo científico de 2011 Detectando novas associações em grandes conjuntos de dados http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf que foi amplamente criticado (consulte AndrewGelman.com para obter uma boa visão geral, publicada simultaneamente com o evento Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Os Reshefs abordaram todas essas críticas em sua apresentação (disponível no site da conferência em Columbia), bem como um algoritmo MIC muito mais eficiente.
Muitos outros estatísticos importantes se apresentaram neste evento, incluindo Gabor Szekely, agora na NSF em DC. Szekely desenvolveu suas correlações de distância e distância parcial . Deep Mukhopadhay, Temple U, apresentando seu Algoritmo Estatístico Unificado - uma estrutura para algoritmos unificados de ciência de dados - com base no trabalho realizado com Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . E muitos outros. Para mim, um dos temas mais interessantes foi a grande alavancagem e o uso do Reproducing Kernel Hilbert Space (RKHS) e o qui-quadrado. Se houve uma abordagem modal para estruturas de dependência nesta conferência, foi o RKHS.
Os manuais típicos de introdução à estatística são superficiais no tratamento da dependência, geralmente contando com apresentações do mesmo conjunto de visualizações de relações circulares ou parabólicas. Os textos mais sofisticados serão aprofundados no Quarteto de Anscombe , uma visualização de quatro conjuntos de dados diferentes, possuindo propriedades estatísticas simples e semelhantes, mas com relações extremamente diferentes: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Uma das grandes coisas deste workshop foi a multiplicidade de estruturas e relacionamentos de dependência visualizados e apresentados, indo muito além do tratamento superficial padrão. Por exemplo, os Reshefs tinham dezenas de gráficos em miniatura que representavam apenas uma amostra das possíveis não linearidades. Mukhopadhay profundo tinha visuais impressionantes de relacionamentos altamente complexos que mais pareciam uma visão de satélite do Himalaia. Os autores de estatísticas e de livros didáticos de ciência de dados precisam tomar nota.
Saindo da conferência de Columbia com o desenvolvimento e a visualização dessas estruturas de dependência altamente complexas, emparelhadas, fiquei questionando a capacidade de modelos estatísticos multivariados para capturar essas não linearidades e complexidades.
fonte
Depende da sua definição exata de "correlação", mas não é muito difícil construir casos degenerados. "Independente" pode significar algo como "nenhum poder preditivo, jamais", tanto quanto "correlação linear".
fonte
Basicamente, dependência de Y em X significa que a distribuição dos valores de Y depende de alguma forma do valor de X. Essa dependência pode estar no valor médio de Y (o caso usual apresentado na maioria das respostas) ou em qualquer outra característica de Y.
Por exemplo, seja X 0 ou 1. Se X = 0, Y seja 0, se X = 1 for -1, 0 ou 1 (mesma probabilidade). X e Y não estão correlacionados. Em média, Y não depende de X porque, qualquer que seja o valor X, a média de Y é 0. Mas, claramente, a distribuição dos valores de Y depende do valor de X. Neste caso, por exemplo, a variação de Y é 0 quando X = 0 e> 0 quando X = 1, portanto, há pelo menos uma dependência da variação, ou seja, existe uma dependência.
Portanto, a correlação linear mostra apenas um tipo de dependência da média (dependência linear), que por sua vez é apenas um caso especial de dependência.
fonte