Se 'correlação não implica causalidade', se eu encontrar uma correlação estatisticamente significativa, como posso provar a causalidade?

30

Entendo que correlação não é causalidade . Suponha que obtemos alta correlação entre duas variáveis. Como você verifica se essa correlação é realmente por causa de causalidade? Ou, sob quais condições, exatamente, podemos usar dados experimentais para deduzir uma relação causal entre duas ou mais variáveis?

Manish Barnwal
fonte
2
Isso exigirá dados experimentais. Por favor, descreva o desenho experimental ao qual você se refere.
Frank Harrell
11
Senhor, não tenho dados experimentais. Eu queria entender que tipo de experimentos controlados precisam ser realizados para deduzir a causalidade?
Manish Barnwal
4
Existem muitos modelos possíveis. Em resumo, você tenta controlar fisicamente todas as outras variáveis ​​e variar o único fator de interesse, ou randomiza a aplicação da manipulação experimental, que "calcula a média" dos efeitos de todas as outras explicações possíveis.
Frank Harrell
2
Em resumo, você precisa de alguma variação exógena.
abaumann
11
Entre correlacionado Xe Yselecione aquele como a causa do outro, o que minimizará o sentimento de responsabilidade e maximizará o sentimento de destino.
ttnphns

Respostas:

16

Uma razão muito provável para duas variáveis ​​serem correlacionadas é que suas alterações estão vinculadas a uma terceira variável. Outras razões prováveis ​​são o acaso (se você testar variáveis ​​não correlacionadas suficientes para correlação, algumas mostrarão correlação) ou mecanismos muito complexos que envolvem várias etapas.

Veja http://tylervigen.com/ para exemplos como este:

insira a descrição da imagem aqui

Para declarar com segurança a causa de A -> B, você precisa de um experimento em que possa controlar a variável A e não influenciar as outras variáveis. Então você mede se a correlação de A e B ainda existe se você alterar sua variável.

Para quase todas as aplicações práticas, quase não é possível não influenciar outras variáveis ​​(geralmente desconhecidas), portanto, o melhor que podemos fazer é provar a ausência de causalidade.

Para poder declarar um relacionamento causal, você começa com a hipótese de que 2 variáveis ​​têm um relacionamento causal, usa um experimento para refutar a hipótese e, se falhar, pode afirmar com um certo grau de certeza que a hipótese é verdadeira. Quão alto deve ser o seu grau de certeza depende do seu campo de pesquisa.

Em muitos campos, é comum ou necessário executar 2 partes de seu experimento em paralelo, um onde a variável A é alterada e um grupo de controle em que a variável A não é alterada, mas o experimento é exatamente o mesmo - por exemplo, no caso de remédio, você ainda cola os objetos com uma agulha ou os engole. Se o experimento mostrar correlação entre A e B, mas não entre A e B '(B do grupo controle), você poderá assumir a causa.

Existem também outras maneiras de concluir a causalidade, se um experimento não for possível ou desaconselhável por várias razões (moral, ética, RP, custo, tempo). Uma maneira comum é usar dedução. Tomando um exemplo de um comentário: para provar que fumar causa câncer em humanos, podemos usar um experimento para provar que fumar causa câncer em ratos, depois provar que existe uma correlação entre fumar e câncer em humanos e deduzir que, portanto, é extremamente provável que o tabagismo cause câncer em humanos - essa prova pode ser reforçada se também provarmos que o câncer causa tabagismo. Outra maneira de concluir a causalidade é a exclusão de outras causas da correlação, deixando a causalidade como a melhor explicação restante da correlação - esse método nem sempre é aplicável, porque às vezes é impossível eliminar todas as causas possíveis da correlação (chamadas "caminhos da porta dos fundos" em outra resposta). No exemplo do tabagismo / câncer, provavelmente poderíamos usar essa abordagem para provar que o tabagismo é responsável pelo alcatrão nos pulmões, porque não existem muitas fontes possíveis para isso.

Essas outras formas de "provar" a causalidade nem sempre são ideais do ponto de vista científico, porque não são tão conclusivas quanto um experimento mais simples. O debate sobre o aquecimento global é um ótimo exemplo para mostrar como é muito mais fácil descartar uma causa que ainda não foi comprovada conclusivamente com um experimento repetível.

Para alívio cômico, eis um exemplo de um experimento tecnicamente plausível, mas não aconselhável devido a razões não científicas (moral, ética, relações públicas, custo):

Imagem tirada de phroyd.tumblr.com

Pedro
fonte
3
Esta é uma condição muito forte. Em epidemiologia, os requisitos são menos rigorosos porque controlar um experimento é, na melhor impraticável, e, na pior antiético - "faz o cancro causa o tabagismo"
user295691
2
O exemplo dado por Pearl para mostrar que fumar causa câncer em humanos é o método da porta da frente, pelo qual o alcatrão é visto como uma variável intermediária entre fumar e câncer. Não sei o que você quer dizer com "não ideal". É definitivamente mais ideal do que forçar as pessoas a fumar e ver se elas têm câncer!
Neil G
11
@ Neil "É definitivamente mais ideal do que forçar as pessoas a fumar e ver se elas têm câncer" - Se o objetivo é provar um relacionamento causal, discordo totalmente. Por outro lado, se o objetivo é evitar um problema ético, financiamento reduzido ou uma multidão de linchadores, então é mais ideal, sim.
Peter Peter
10

Independentemente de o projeto ser experimental ou observacional, uma associação entre uma variável A e um resultado Y reflete uma relação causal entre A e Y se não houver caminhos abertos de backdoor entre A e Y.

Em um projeto experimental, isso é mais facilmente alcançado através da randomização da exposição ou da atribuição do tratamento. Exceto a randomização ideal, o efeito do tratamento associativo é uma estimativa imparcial do efeito do tratamento causal sob as premissas de permutabilidade (a atribuição do tratamento é independente dos resultados contrafatuais), positividade, etc.

Referências

Hernan, Robins. Inferência Causal
Pérola. Inferência Causal em Estatística: Uma Visão Geral

PS Você pode pesquisar no Google por Inferência Causal e os seguintes nomes (para começar) para obter mais informações sobre o tema: Judea Pearl, Donald Rubin, Miguil Hernan.

Cinza
fonte
Dê uma olhada aqui: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Eu contradiz a afirmação de Ash: Independentemente de o design ser experimental ou observacional, uma associação entre uma variável A e um resultado Y reflete uma relação causal entre A e Y, se houver não há caminhos abertos entre A e Y. Por exemplo, vendas de sorvete, mortes de Y em piscinas; estão correlacionados, mas a causa para eles aumentarem ou diminuirem é a temperatura. Talvez Ash signifique, com caminhos abertos de backdoor, ambos dependendo de uma terceira variável, mas sua formulação não é clara.
Karl
O caminho da porta dos fundos no seu exemplo é a estação. Um caminho de backdoor significa uma terceira variável.
Neil G
Para aqueles que não estão familiarizados com as contribuições de Judea Pearl para o estudo da causalidade, pode ser útil ler sua biografia no site da Association for Computing Machinery, que lhe concedeu o Turing Award de 2011. Pearl discute a necessidade de incluir mais discussões sobre inferência causal nos currículos da educação estatística em uma entrevista ao Amstat News .
Jtetzel #
Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
gung - Restabelecer Monica
3

Considere um aumento na taxa de divórcio, correlacionado com um aumento na renda dos advogados.

Intuitivamente, parece óbvio que essas métricas devem ser correlacionadas. Mais casais (demanda) pedem mais divórcios, então mais advogados (oferta) aumentam seus preços.

Parece que um aumento na taxa de divórcio causa um aumento na renda dos advogados, porque a demanda extra dos casais fez com que os advogados aumentassem seus preços.

Ou isso é ao contrário? E se os advogados intencionalmente e independentemente aumentassem seus preços e gastassem sua nova renda em anúncios de divórcio? Isso também parece uma explicação plausível.

Esse cenário ilustra o número arbitrário de terceiras variáveis ​​explicativas que uma análise estatística pode exibir. Considere o seguinte:

  1. Você não pode medir todos os pontos de dados,
  2. Você deseja eliminar todos os pontos de dados não explicativos,
  3. Você só pode justificar por que eliminar um ponto de dados se o medir.

Você tem um enigma. Você não pode medir todos os pontos de dados; se você deseja justificar ignorar os pontos de dados não explicativos, é necessário medi-los. (Você pode eliminar alguns pontos de dados sem medi-los, mas precisa pelo menos justificá-los.)

Nenhuma prova de causalidade pode estar correta em um sistema ilimitado.

Miles Richardson
fonte
2

Se A e B estiverem correlacionados, e após você excluir a coincidência, é mais provável que A cause B, ou B cause A, ou alguma causa possivelmente desconhecida X cause A e B.

O primeiro passo seria examinar um possível mecanismo. Você poderia pensar em como A poderia usar o caso B, ou vice-versa, ou que tipo de outra causa X poderia causar os dois? (Isso pressupõe que esse exame seja mais barato do que realizar um experimento tentando provar uma causa). Esperamos que você termine em uma posição em que um experimento para mostrar a causa pareça valer a pena. Você pode prosseguir se não conseguir pensar em um mecanismo (A causa B, mas não temos idéia do porquê dessa possibilidade).

Nesse experimento, você precisa poder manipular a causa suspeita à vontade (por exemplo, se a causa for "tomar a pílula A", algumas pessoas receberão a pílula, outras não). Depois, você toma as precauções habituais, escolhendo as pessoas que tomam ou não a pílula aleatoriamente, sem você nem os testados sabendo quem recebeu e quem não recebeu. Você também tenta manter o restante do experimento igual (dar a pílula A às pessoas em uma sala quente e agradável com a luz do sol entrando pela janela, enquanto o outro grupo recebe uma pílula falsa em uma sala suja e desconfortável, isso pode afetar seus dados). Portanto, se você concluiu que a única diferença é essa pílula, e a causa para obter ou não a pílula foi uma decisão aleatória que não afetou mais nada,

gnasher729
fonte
2

Os dados intervencionistas (experimentais), descritos por gnasher e Peter, são a maneira mais direta de justificar um relacionamento causal. No entanto, apenas a resposta de Ash menciona a possibilidade de deduzir uma relação causal por meio de dados observacionais. Além do método backdoor que ele menciona, o método da porta da frente é outra maneira de estabelecer a causalidade com base em dados observacionais e em algumas suposições causais. Estes foram descobertos pela Judea Pearl. Tentei resumir e fornecer uma referência a estes aqui .

Neil G
fonte
0

Para fazer uma afirmação causal, é necessário ter amostragem aleatória e atribuição aleatória

  • Amostragem aleatória: cada indivíduo tem igual probabilidade de ser selecionado para o estudo
  • Atribuição aleatória: cada indivíduo no experimento mostra uma característica um pouco diferente.

Portanto, ao selecionar um grupo de tratamento e controle do grupo amostrado acima, um número igual de pessoas com características semelhantes deve estar no grupo de tratamento e controle.

O grupo de tratamento é o grupo em que o medicamento é administrado às pessoas. O grupo controle é o grupo em que o medicamento não é administrado. Você também pode definir um grupo de placebo em que os indivíduos não recebem um medicamento, mas são informados de que estão sendo administrados.

Finalmente, se os efeitos são visíveis no grupo de tratamento, mas não no grupo de controle, podemos estabelecer a causa.

show_stopper
fonte
Na minha opinião, o grupo placebo é absolutamente necessário. Além disso, as pessoas responsáveis ​​pelo tratamento dos sujeitos do teste não devem saber quem está em qual grupo ("duplo cego"). Qualquer coisa menos eu consideraria definitivamente não confiável. Testar não é fácil.
Mafu # 28/14
Ensaios controlados com placebo randomizados são mais autêntico do que ensaios clínicos randomizados, ainda declarações causais poderiam ser feitas usando ensaios clínicos randomizados
show_stopper
2
"Para fazer uma declaração causal, é necessário ter amostragem aleatória e atribuição aleatória" - isso não é verdade. Veja os métodos da porta frontal e da porta traseira.
Neil G