Sob quais condições a correlação implica causalidade?

85

Todos sabemos que o mantra "correlação não implica causalidade", que é tocado em todos os estudantes de estatística do primeiro ano. Existem alguns bons exemplos aqui para ilustrar a ideia.

Mas às vezes correlação faz implica causalidade. O exemplo a seguir é retirado desta página da Wikipedia

Por exemplo, alguém poderia fazer um experimento com gêmeos idênticos, que sabidamente obtinham as mesmas notas nos testes. Um gêmeo é enviado para estudar por seis horas, enquanto o outro é enviado para o parque de diversões. Se os resultados dos testes divergissem repentinamente em grande parte, isso seria uma forte evidência de que estudar (ou ir ao parque de diversões) teve um efeito causal nos resultados dos testes. Nesse caso, a correlação entre os resultados dos estudos e dos testes quase certamente implicaria causalidade.

Existem outras situações em que correlação implica causalidade?

Rob Hyndman
fonte
16
A correlação e uma forte razão subjacente para um link sugerem causalidade até prova em contrário, provavelmente é o melhor que você pode obter.
James
8
Karl Popper não disse que o homem não pode estabelecer causalidade: as teorias científicas são de natureza abstrata. Eles podem ser falsificáveis ​​e o fato de encontrarmos dificuldades em falsificar algo nos faz pensar em causalidade ...
robin girard
3
Contra-exemplo interessante de Jaynes: Temos a relação dedutiva "sem nuvens" implica "sem chuva"; no entanto, quem acreditaria que "sem nuvens" é a causa física de "sem chuva"?
probabilityislogic
4
Vamos usar um termo diferente do que 'implica' uma vez no dicionário seus significados incluem tanto 1. Sugerir e 2. exigir (!)
rolando2
O gêmeo desse exemplo faz sentido? Quero dizer, a causalidade implícita é que as diferenças entre os métodos / regimes de estudo causam diferenças nas pontuações dos testes dos gêmeos. Mas é uma amostra de uma, e mesmo com uma amostra grande, basta um conjunto de gêmeos para ter a reação oposta para quebrar a hipótese, estilo cisne negro ... @probabilityislogic: o conceito "sem nuvens" tem físico significado? Se sim, não vejo por que a segunda parte não é crível.
precisa saber é o seguinte

Respostas:

33

A correlação não é suficiente para a causalidade. Pode-se contornar o exemplo da Wikipedia imaginando que esses gêmeos sempre trapacearam em seus testes, tendo um dispositivo que lhes deu as respostas. O gêmeo que vai ao parque de diversões perde o dispositivo, daí o baixo grau.

Uma boa maneira de esclarecer essas coisas é pensar na estrutura da rede bayesiana que pode estar gerando as quantidades medidas, como feito por Pearl em seu livro Causality . Seu ponto básico é procurar variáveis ​​ocultas. Se houver uma variável oculta que não varia na amostra medida, a correlação não implicaria causalidade. Exponha todas as variáveis ​​ocultas e você tem causalidade.

Hbar
fonte
Tenho alguns problemas para entender por que as direções das setas em uma rede bayesiana correspondente têm alguma relação com a causalidade. Por exemplo, A-> B e B-> A representam diferentes direções para causalidade, mas de redes Bayesianas para essas duas estruturas são equivalentes
Yaroslav Bulatov
6
Eles não são equivalentes diante das intervenções.
Neil G
Essas redes Bayesian são equivalentes em um sentido que dados fornecidos amostrados de um deles, você não pode dizer qual era
Yaroslav Bulatov
4
Er ... eu não estou familiarizado com estatísticas reais por um longo tiro ... mas não é "expor todas as variáveis ​​ocultas", por definição, impossível? Como você sabe quando não há mais variáveis ​​"ocultas"?
Craig Walker
4
@ Craig Esse é o ponto; não é possível.
Justin L.
35

Vou apenas adicionar alguns comentários adicionais sobre causalidade, vistos de uma perspectiva epidemiológica . A maioria desses argumentos é retirada de Practical Psychiatric Epidemiology , de Prince et al. (2003).

Causação, ou interpretação de causalidade , são de longe os aspectos mais difíceis da pesquisa epidemiológica. Estudos de coorte e transversal podem levar a efeitos de confusão, por exemplo. Citando S. Menard ( Longitudinal Research , Sage University Paper 76, 1991), HB Asher in Causal Modeling (Sage, 1976) propôs inicialmente o seguinte conjunto de critérios a serem cumpridos:

  • Os fenômenos ou variáveis ​​em questão devem cobrir, como indicado, por exemplo, por diferenças entre os grupos experimental e controle ou por correlação diferente de zero entre as duas variáveis.
  • O relacionamento não deve ser atribuível a nenhuma outra variável ou conjunto de variáveis, ou seja, não deve ser falso, mas deve persistir mesmo quando outras variáveis ​​são controladas, como indicado, por exemplo, pela randomização bem-sucedida em um projeto experimental (nenhuma diferença entre experimental e grupos controle antes do tratamento) ou por uma correlação parcial diferente de zero entre duas variáveis ​​com outra variável mantida constante.
  • A suposta causa deve preceder ou ser simultânea com o suposto efeito no tempo, conforme indicado pela mudança na causa que ocorre o mais tardar na mudança associada no efeito.

Embora os dois primeiros critérios possam ser facilmente verificados usando um estudo transversal ou ordenado por tempo, o último só pode ser avaliado com dados longitudinais, exceto pelas características biológicas ou genéticas cuja ordem temporal pode ser assumida sem dados longitudinais. Obviamente, a situação se torna mais complexa no caso de um relacionamento causal não recursivo.

Também gosto da ilustração a seguir (capítulo 13, na referência mencionada), que resume a abordagem promulgada por Hill (1965), que inclui 9 critérios diferentes relacionados ao efeito causal, como também citado por @ James. O artigo original era de fato intitulado "O meio ambiente e a doença: associação ou causa?" ( Versão em PDF ).

Hill1965

Finalmente, o capítulo 2 do livro mais famoso de Rothman, Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2nd Edition), oferece uma discussão muito completa sobre causalidade e inferência causal, tanto de uma perspectiva estatística quanto filosófica.

Eu gostaria de adicionar as seguintes referências (tiradas aproximadamente de um curso on-line em epidemiologia) também são muito interessantes:

Finalmente, esta revisão oferece uma perspectiva mais ampla sobre modelagem causal, inferência causal em estatística: Uma visão geral (J Pearl, SS 2009 (3)).

chl
fonte
18

No cerne da sua pergunta está a pergunta "quando um relacionamento é causal?" Não precisa ser apenas correlação que implica (ou não) causalidade.

Um bom livro sobre esse assunto é chamado de Econometria Sobrenatural de Johua Angrist e Jorn-Steffen Pischke. Eles partem do ideal experimental, onde somos capazes de aleatorizar o "tratamento" em estudo de alguma maneira e, em seguida, passam a métodos alternativos para gerar essa randomização, a fim de obter influências causais. Isso começa com o estudo dos chamados experimentos naturais.

Um dos primeiros exemplos de um experimento natural sendo usado para identificar relações causais é o artigo de Angrist, de 1989, sobre "Ganhos ao longo da vida e a loteria da era do Vietnã". Este artigo tenta estimar o efeito do serviço militar nos ganhos vitalícios. Um problema-chave na estimativa de qualquer efeito causal é que certos tipos de pessoas podem ter mais chances de se alistar, o que pode influenciar qualquer medida do relacionamento. Angrist usa o experimento natural criado pela loteria do Vietnã para efetivamente "atribuir aleatoriamente" o tratamento "serviço militar" a um grupo de homens.

Então, quando temos uma causalidade? Sob condições experimentais. Quando chegamos perto? Sob experimentos naturais. Também existem outras técnicas que nos aproximam da "causalidade", ou seja, são muito melhores do que simplesmente usar o controle estatístico. Eles incluem descontinuidade de regressão, diferença de diferença, etc.

Graham Cookson
fonte
15

Há também um problema com o caso oposto, quando a falta de correlação é usada como prova da falta de causalidade. Esse problema é a não linearidade; ao observar a correlação, as pessoas geralmente conferem Pearson, que é apenas uma ponta de um iceberg.


fonte
14

Seu exemplo é o de um experimento controlado . O único outro contexto que conheço onde uma correlação pode implicar causalidade é o de um experimento natural .

Basicamente, um experimento natural tira proveito de uma atribuição de alguns respondentes a um tratamento que ocorre naturalmente no mundo real. Como a designação dos entrevistados para grupos de tratamento e controle não é controlada pelo pesquisador, a extensão em que a correlação implicaria causalidade talvez seja, em certa medida, mais fraca.

Consulte os links do wiki para obter mais informações sobre experimentos controlados / naturais.


fonte
12

Na minha opinião, a força-tarefa estatística da APA resumiu bastante bem

'' Inferir a causalidade de projetos não aleatórios é uma empresa arriscada. Os pesquisadores que usam desenhos não randomizados têm uma obrigação extra de explicar a lógica por trás das covariáveis ​​incluídas em seus desenhos e de alertar o leitor sobre hipóteses rivais plausíveis que possam explicar seus resultados. Mesmo em experimentos randomizados, atribuir efeitos causais a qualquer aspecto da condição de tratamento requer apoio de experimentação adicional '' - APA Task Force

Jeromy Anglim
fonte
11

O discurso do presidente da Sir Austin Bradford Hill à Royal Society of Medicine ( The Environment and Disease: Association or Causation? ) Explica nove critérios que ajudam a julgar se existe uma relação causal entre duas variáveis ​​correlacionadas ou associadas.

Eles são:

  1. Força da associação
  2. Consistência: "foi repetidamente observado por diferentes pessoas, em diferentes lugares, circunstâncias e tempos?"
  3. Especificidade
  4. Temporalidade: "qual é o carro e qual é o cavalo?" - a causa deve preceder o efeito
  5. Gradiente biológico (curva dose-resposta) - de que maneira a magnitude do efeito depende da magnitude da variável causal (suspeita)?
  6. Plausibilidade - existe uma explicação provável para a causalidade?
  7. Coerência - a causa contradiz outros fatos estabelecidos?
  8. Experiência - a manipulação experimental da variável causal (suspeita) afeta a variável dependente (suspeita)
  9. Analogia - encontramos relações causais semelhantes no passado?
James Scott-Brown
fonte
9

No exemplo dos gêmeos, não é apenas a correlação que sugere causalidade, mas também as informações associadas ou conhecimento prévio.

Suponha que eu adicione mais uma informação. Suponha que o gêmeo diligente passou 6 horas estudando para um exame de estatística, mas devido a um erro infeliz, o exame estava na história. Ainda concluiríamos que o estudo foi a causa do desempenho superior?

Determinar a causalidade é tanto uma questão filosófica quanto científica, daí a tendência de invocar filósofos como David Hume e Karl Popper quando a causalidade é discutida.

Não é de surpreender que a medicina tenha contribuído significativamente para estabelecer a causalidade por meio de heurísticas, como os postulados de Koch para estabelecer a relação causal entre micróbios e doenças. Estes foram estendidos aos "postulados moleculares de Koch" necessários para mostrar que um gene em um patógeno codifica um produto que contribui para a doença causada pelo patógeno.

Infelizmente, não posso postar um hiperlink supostamente porque sou um novo usuário (não é verdade) e não tenho "pontos de reputação" suficientes. A verdadeira razão é uma incógnita.

Thylacoleo
fonte
9

A correlação sozinha nunca implica causalidade. É simples assim.

Mas é muito raro ter apenas uma correlação entre duas variáveis. Muitas vezes, você também sabe algo sobre o que são essas variáveis ​​e uma teoria ou teorias, sugerindo por que pode haver uma relação causal entre as variáveis. Caso contrário, incomodamos a verificação de uma correlação? (No entanto, as pessoas que mineram matrizes de correlação massivas para obter resultados significativos geralmente não têm teoria casual - caso contrário, por que incomodar a mineração. Um contra-argumento é que muitas vezes é necessária alguma exploração para obter idéias para teorias casuais. E assim por diante ...)

Uma resposta à crítica comum "Sim, mas isso é apenas uma correlação: não implica causalidade":

  1. Para um relacionamento casual, é necessária correlação. Uma falha repetida em encontrar uma correlação seria realmente uma má notícia.
  2. Não te dei apenas uma correlação.
  3. Em seguida, explique possíveis mecanismos causais que explicam a correlação ...
AndyF
fonte
2
Um contra-exemplo ao seu ponto 1: em um sistema caótico, você pode ter uma causa sem correlação óbvia.
Mkt6
8

Uma condição suficiente útil para algumas definições de causalidade:

A causa pode ser reivindicada quando uma das variáveis ​​correlacionadas pode ser controlada (podemos definir diretamente seu valor) e a correlação ainda está presente.

Łukasz Lew
fonte
2
Também poderia usar a palavra de Pearl para "definir diretamente o valor [de uma variável]": uma intervenção.
Neil G
8
  1. Quase sempre em ensaios randomizados
  2. Quase sempre em estudo observacional quando alguém mede todos os que confundem (quase nunca)
  3. Às vezes, quando alguém mede alguns contadores (algoritmo IC * da descoberta do DAG no livro Causality, de Pearl)
  4. Em modelos lineares não gaussianos com duas ou mais variáveis, mas não usando correlação como medida de relacionamento ( LiNGAM )

A maioria dos algoritmos de descoberta é implementada no Tetrad IV

Wojtek
fonte
6

Uma pergunta relacionada pode ser: sob quais condições você pode extrair com segurança relações causais dos dados?

Um workshop do NIPS de 2008 tenta abordar essa questão empiricamente. Uma das tarefas era inferir a direção da causalidade a partir de observações de pares de variáveis ​​em que se sabia que uma variável causava outra, e o melhor método era capaz de extrair corretamente a direção causal 80% das vezes.

Yaroslav Bulatov
fonte
3

Quase certamente em um experimento bem projetado. (Projetado, é claro, para provocar tal conexão .)

ars
fonte
3

Suponha que pensamos que o fator A é a causa do fenômeno B. Então tentamos variar para ver se B muda. Se B não mudar e se pudermos assumir que tudo o resto é inalterado, uma forte evidência de que A não é a causa de B. Se B mudar, não podemos concluir que A seja a causa, porque a mudança de A pode ter causado uma mudança na causa real C, que fez B mudar.


fonte
Você pode fazer variar A?
RockScience
2

Percebi que 'prova' era usada aqui ao discutir o paradigma empírico. Não existe tal coisa. Primeiro vem a hipótese, onde a idéia é avançada; depois vem o teste, sob "condições controladas" [nota a] e, se houver falta "suficiente" de reprovação , ela avança para o estágio de hipótese...período. Não há provas, a menos que se possa 1) conseguir estar em todas as ocorrências do referido evento [nota b] e, é claro, 2) estabelecer uma causa. 1) é improvável em um universo infinito [note que o infinito por natureza não pode ser provado]. Nota A; nenhum experimento é realizado sob condições totalmente controladas e, quanto mais controladas são as condições, menor a semelhança com o universo externo com linhas de causa aparentemente infinitas. Nota b; lembre-se, você deve ter descrito o referido "evento" perfeitamente, o que presumivelmente significa uma linguagem perfeitamente correta = presumivelmente não uma linguagem humana. Para uma nota final, toda a causa presumivelmente remonta ao Primeiro Evento. Agora vá falar com todos com uma teoria. Sim, eu estudei formal e informalmente. No fim; não, a proximidade não implica causalidade nem mesmo outra coisa senão correlação temporária.

Glenn Charles
fonte
1

XY

Y=bX+u

bXYE(b)=BXuE(u|X)=0u YXY

Ser imparcial é uma propriedade desejável de um estimador, mas você também gostaria que ele fosse eficiente (baixa variação) e consistente (tende em probabilidade ao valor verdadeiro). Veja as suposições de Gauss-Markov.

user172578
fonte