Todos sabemos que o mantra "correlação não implica causalidade", que é tocado em todos os estudantes de estatística do primeiro ano. Existem alguns bons exemplos aqui para ilustrar a ideia.
Mas às vezes correlação faz implica causalidade. O exemplo a seguir é retirado desta página da Wikipedia
Por exemplo, alguém poderia fazer um experimento com gêmeos idênticos, que sabidamente obtinham as mesmas notas nos testes. Um gêmeo é enviado para estudar por seis horas, enquanto o outro é enviado para o parque de diversões. Se os resultados dos testes divergissem repentinamente em grande parte, isso seria uma forte evidência de que estudar (ou ir ao parque de diversões) teve um efeito causal nos resultados dos testes. Nesse caso, a correlação entre os resultados dos estudos e dos testes quase certamente implicaria causalidade.
Existem outras situações em que correlação implica causalidade?
fonte
Respostas:
A correlação não é suficiente para a causalidade. Pode-se contornar o exemplo da Wikipedia imaginando que esses gêmeos sempre trapacearam em seus testes, tendo um dispositivo que lhes deu as respostas. O gêmeo que vai ao parque de diversões perde o dispositivo, daí o baixo grau.
Uma boa maneira de esclarecer essas coisas é pensar na estrutura da rede bayesiana que pode estar gerando as quantidades medidas, como feito por Pearl em seu livro Causality . Seu ponto básico é procurar variáveis ocultas. Se houver uma variável oculta que não varia na amostra medida, a correlação não implicaria causalidade. Exponha todas as variáveis ocultas e você tem causalidade.
fonte
Vou apenas adicionar alguns comentários adicionais sobre causalidade, vistos de uma perspectiva epidemiológica . A maioria desses argumentos é retirada de Practical Psychiatric Epidemiology , de Prince et al. (2003).
Causação, ou interpretação de causalidade , são de longe os aspectos mais difíceis da pesquisa epidemiológica. Estudos de coorte e transversal podem levar a efeitos de confusão, por exemplo. Citando S. Menard ( Longitudinal Research , Sage University Paper 76, 1991), HB Asher in Causal Modeling (Sage, 1976) propôs inicialmente o seguinte conjunto de critérios a serem cumpridos:
Embora os dois primeiros critérios possam ser facilmente verificados usando um estudo transversal ou ordenado por tempo, o último só pode ser avaliado com dados longitudinais, exceto pelas características biológicas ou genéticas cuja ordem temporal pode ser assumida sem dados longitudinais. Obviamente, a situação se torna mais complexa no caso de um relacionamento causal não recursivo.
Também gosto da ilustração a seguir (capítulo 13, na referência mencionada), que resume a abordagem promulgada por Hill (1965), que inclui 9 critérios diferentes relacionados ao efeito causal, como também citado por @ James. O artigo original era de fato intitulado "O meio ambiente e a doença: associação ou causa?" ( Versão em PDF ).
Finalmente, o capítulo 2 do livro mais famoso de Rothman, Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2nd Edition), oferece uma discussão muito completa sobre causalidade e inferência causal, tanto de uma perspectiva estatística quanto filosófica.
Eu gostaria de adicionar as seguintes referências (tiradas aproximadamente de um curso on-line em epidemiologia) também são muito interessantes:
Finalmente, esta revisão oferece uma perspectiva mais ampla sobre modelagem causal, inferência causal em estatística: Uma visão geral (J Pearl, SS 2009 (3)).
fonte
No cerne da sua pergunta está a pergunta "quando um relacionamento é causal?" Não precisa ser apenas correlação que implica (ou não) causalidade.
Um bom livro sobre esse assunto é chamado de Econometria Sobrenatural de Johua Angrist e Jorn-Steffen Pischke. Eles partem do ideal experimental, onde somos capazes de aleatorizar o "tratamento" em estudo de alguma maneira e, em seguida, passam a métodos alternativos para gerar essa randomização, a fim de obter influências causais. Isso começa com o estudo dos chamados experimentos naturais.
Um dos primeiros exemplos de um experimento natural sendo usado para identificar relações causais é o artigo de Angrist, de 1989, sobre "Ganhos ao longo da vida e a loteria da era do Vietnã". Este artigo tenta estimar o efeito do serviço militar nos ganhos vitalícios. Um problema-chave na estimativa de qualquer efeito causal é que certos tipos de pessoas podem ter mais chances de se alistar, o que pode influenciar qualquer medida do relacionamento. Angrist usa o experimento natural criado pela loteria do Vietnã para efetivamente "atribuir aleatoriamente" o tratamento "serviço militar" a um grupo de homens.
Então, quando temos uma causalidade? Sob condições experimentais. Quando chegamos perto? Sob experimentos naturais. Também existem outras técnicas que nos aproximam da "causalidade", ou seja, são muito melhores do que simplesmente usar o controle estatístico. Eles incluem descontinuidade de regressão, diferença de diferença, etc.
fonte
Há também um problema com o caso oposto, quando a falta de correlação é usada como prova da falta de causalidade. Esse problema é a não linearidade; ao observar a correlação, as pessoas geralmente conferem Pearson, que é apenas uma ponta de um iceberg.
fonte
Seu exemplo é o de um experimento controlado . O único outro contexto que conheço onde uma correlação pode implicar causalidade é o de um experimento natural .
Basicamente, um experimento natural tira proveito de uma atribuição de alguns respondentes a um tratamento que ocorre naturalmente no mundo real. Como a designação dos entrevistados para grupos de tratamento e controle não é controlada pelo pesquisador, a extensão em que a correlação implicaria causalidade talvez seja, em certa medida, mais fraca.
Consulte os links do wiki para obter mais informações sobre experimentos controlados / naturais.
fonte
Na minha opinião, a força-tarefa estatística da APA resumiu bastante bem
fonte
O discurso do presidente da Sir Austin Bradford Hill à Royal Society of Medicine ( The Environment and Disease: Association or Causation? ) Explica nove critérios que ajudam a julgar se existe uma relação causal entre duas variáveis correlacionadas ou associadas.
Eles são:
fonte
No exemplo dos gêmeos, não é apenas a correlação que sugere causalidade, mas também as informações associadas ou conhecimento prévio.
Suponha que eu adicione mais uma informação. Suponha que o gêmeo diligente passou 6 horas estudando para um exame de estatística, mas devido a um erro infeliz, o exame estava na história. Ainda concluiríamos que o estudo foi a causa do desempenho superior?
Determinar a causalidade é tanto uma questão filosófica quanto científica, daí a tendência de invocar filósofos como David Hume e Karl Popper quando a causalidade é discutida.
Não é de surpreender que a medicina tenha contribuído significativamente para estabelecer a causalidade por meio de heurísticas, como os postulados de Koch para estabelecer a relação causal entre micróbios e doenças. Estes foram estendidos aos "postulados moleculares de Koch" necessários para mostrar que um gene em um patógeno codifica um produto que contribui para a doença causada pelo patógeno.
Infelizmente, não posso postar um hiperlink supostamente porque sou um novo usuário (não é verdade) e não tenho "pontos de reputação" suficientes. A verdadeira razão é uma incógnita.
fonte
A correlação sozinha nunca implica causalidade. É simples assim.
Mas é muito raro ter apenas uma correlação entre duas variáveis. Muitas vezes, você também sabe algo sobre o que são essas variáveis e uma teoria ou teorias, sugerindo por que pode haver uma relação causal entre as variáveis. Caso contrário, incomodamos a verificação de uma correlação? (No entanto, as pessoas que mineram matrizes de correlação massivas para obter resultados significativos geralmente não têm teoria casual - caso contrário, por que incomodar a mineração. Um contra-argumento é que muitas vezes é necessária alguma exploração para obter idéias para teorias casuais. E assim por diante ...)
Uma resposta à crítica comum "Sim, mas isso é apenas uma correlação: não implica causalidade":
fonte
Uma condição suficiente útil para algumas definições de causalidade:
A causa pode ser reivindicada quando uma das variáveis correlacionadas pode ser controlada (podemos definir diretamente seu valor) e a correlação ainda está presente.
fonte
A maioria dos algoritmos de descoberta é implementada no Tetrad IV
fonte
Uma pergunta relacionada pode ser: sob quais condições você pode extrair com segurança relações causais dos dados?
Um workshop do NIPS de 2008 tenta abordar essa questão empiricamente. Uma das tarefas era inferir a direção da causalidade a partir de observações de pares de variáveis em que se sabia que uma variável causava outra, e o melhor método era capaz de extrair corretamente a direção causal 80% das vezes.
fonte
Quase certamente em um experimento bem projetado. (Projetado, é claro, para provocar tal conexão .)
fonte
Suponha que pensamos que o fator A é a causa do fenômeno B. Então tentamos variar para ver se B muda. Se B não mudar e se pudermos assumir que tudo o resto é inalterado, uma forte evidência de que A não é a causa de B. Se B mudar, não podemos concluir que A seja a causa, porque a mudança de A pode ter causado uma mudança na causa real C, que fez B mudar.
fonte
Percebi que 'prova' era usada aqui ao discutir o paradigma empírico. Não existe tal coisa. Primeiro vem a hipótese, onde a idéia é avançada; depois vem o teste, sob "condições controladas" [nota a] e, se houver falta "suficiente" de reprovação , ela avança para o estágio de hipótese...período. Não há provas, a menos que se possa 1) conseguir estar em todas as ocorrências do referido evento [nota b] e, é claro, 2) estabelecer uma causa. 1) é improvável em um universo infinito [note que o infinito por natureza não pode ser provado]. Nota A; nenhum experimento é realizado sob condições totalmente controladas e, quanto mais controladas são as condições, menor a semelhança com o universo externo com linhas de causa aparentemente infinitas. Nota b; lembre-se, você deve ter descrito o referido "evento" perfeitamente, o que presumivelmente significa uma linguagem perfeitamente correta = presumivelmente não uma linguagem humana. Para uma nota final, toda a causa presumivelmente remonta ao Primeiro Evento. Agora vá falar com todos com uma teoria. Sim, eu estudei formal e informalmente. No fim; não, a proximidade não implica causalidade nem mesmo outra coisa senão correlação temporária.
fonte
Ser imparcial é uma propriedade desejável de um estimador, mas você também gostaria que ele fosse eficiente (baixa variação) e consistente (tende em probabilidade ao valor verdadeiro). Veja as suposições de Gauss-Markov.
fonte