Entendo que correlação não é causalidade . Suponha que obtemos alta correlação entre duas variáveis. Como você verifica se essa correlação é realmente por causa de causalidade? Ou, sob quais condições, exatamente, podemos usar dados experimentais para deduzir uma relação causal entre duas ou mais variáveis?
correlation
mathematical-statistics
causality
Manish Barnwal
fonte
fonte
X
eY
selecione aquele como a causa do outro, o que minimizará o sentimento de responsabilidade e maximizará o sentimento de destino.Respostas:
Uma razão muito provável para duas variáveis serem correlacionadas é que suas alterações estão vinculadas a uma terceira variável. Outras razões prováveis são o acaso (se você testar variáveis não correlacionadas suficientes para correlação, algumas mostrarão correlação) ou mecanismos muito complexos que envolvem várias etapas.
Veja http://tylervigen.com/ para exemplos como este:
Para declarar com segurança a causa de A -> B, você precisa de um experimento em que possa controlar a variável A e não influenciar as outras variáveis. Então você mede se a correlação de A e B ainda existe se você alterar sua variável.
Para quase todas as aplicações práticas, quase não é possível não influenciar outras variáveis (geralmente desconhecidas), portanto, o melhor que podemos fazer é provar a ausência de causalidade.
Para poder declarar um relacionamento causal, você começa com a hipótese de que 2 variáveis têm um relacionamento causal, usa um experimento para refutar a hipótese e, se falhar, pode afirmar com um certo grau de certeza que a hipótese é verdadeira. Quão alto deve ser o seu grau de certeza depende do seu campo de pesquisa.
Em muitos campos, é comum ou necessário executar 2 partes de seu experimento em paralelo, um onde a variável A é alterada e um grupo de controle em que a variável A não é alterada, mas o experimento é exatamente o mesmo - por exemplo, no caso de remédio, você ainda cola os objetos com uma agulha ou os engole. Se o experimento mostrar correlação entre A e B, mas não entre A e B '(B do grupo controle), você poderá assumir a causa.
Existem também outras maneiras de concluir a causalidade, se um experimento não for possível ou desaconselhável por várias razões (moral, ética, RP, custo, tempo). Uma maneira comum é usar dedução. Tomando um exemplo de um comentário: para provar que fumar causa câncer em humanos, podemos usar um experimento para provar que fumar causa câncer em ratos, depois provar que existe uma correlação entre fumar e câncer em humanos e deduzir que, portanto, é extremamente provável que o tabagismo cause câncer em humanos - essa prova pode ser reforçada se também provarmos que o câncer causa tabagismo. Outra maneira de concluir a causalidade é a exclusão de outras causas da correlação, deixando a causalidade como a melhor explicação restante da correlação - esse método nem sempre é aplicável, porque às vezes é impossível eliminar todas as causas possíveis da correlação (chamadas "caminhos da porta dos fundos" em outra resposta). No exemplo do tabagismo / câncer, provavelmente poderíamos usar essa abordagem para provar que o tabagismo é responsável pelo alcatrão nos pulmões, porque não existem muitas fontes possíveis para isso.
Essas outras formas de "provar" a causalidade nem sempre são ideais do ponto de vista científico, porque não são tão conclusivas quanto um experimento mais simples. O debate sobre o aquecimento global é um ótimo exemplo para mostrar como é muito mais fácil descartar uma causa que ainda não foi comprovada conclusivamente com um experimento repetível.
Para alívio cômico, eis um exemplo de um experimento tecnicamente plausível, mas não aconselhável devido a razões não científicas (moral, ética, relações públicas, custo):
fonte
Independentemente de o projeto ser experimental ou observacional, uma associação entre uma variável A e um resultado Y reflete uma relação causal entre A e Y se não houver caminhos abertos de backdoor entre A e Y.
Em um projeto experimental, isso é mais facilmente alcançado através da randomização da exposição ou da atribuição do tratamento. Exceto a randomização ideal, o efeito do tratamento associativo é uma estimativa imparcial do efeito do tratamento causal sob as premissas de permutabilidade (a atribuição do tratamento é independente dos resultados contrafatuais), positividade, etc.
Referências
Hernan, Robins. Inferência Causal
Pérola. Inferência Causal em Estatística: Uma Visão Geral
PS Você pode pesquisar no Google por Inferência Causal e os seguintes nomes (para começar) para obter mais informações sobre o tema: Judea Pearl, Donald Rubin, Miguil Hernan.
fonte
Considere um aumento na taxa de divórcio, correlacionado com um aumento na renda dos advogados.
Intuitivamente, parece óbvio que essas métricas devem ser correlacionadas. Mais casais (demanda) pedem mais divórcios, então mais advogados (oferta) aumentam seus preços.
Parece que um aumento na taxa de divórcio causa um aumento na renda dos advogados, porque a demanda extra dos casais fez com que os advogados aumentassem seus preços.
Ou isso é ao contrário? E se os advogados intencionalmente e independentemente aumentassem seus preços e gastassem sua nova renda em anúncios de divórcio? Isso também parece uma explicação plausível.
Esse cenário ilustra o número arbitrário de terceiras variáveis explicativas que uma análise estatística pode exibir. Considere o seguinte:
Você tem um enigma. Você não pode medir todos os pontos de dados; se você deseja justificar ignorar os pontos de dados não explicativos, é necessário medi-los. (Você pode eliminar alguns pontos de dados sem medi-los, mas precisa pelo menos justificá-los.)
Nenhuma prova de causalidade pode estar correta em um sistema ilimitado.
fonte
Se A e B estiverem correlacionados, e após você excluir a coincidência, é mais provável que A cause B, ou B cause A, ou alguma causa possivelmente desconhecida X cause A e B.
O primeiro passo seria examinar um possível mecanismo. Você poderia pensar em como A poderia usar o caso B, ou vice-versa, ou que tipo de outra causa X poderia causar os dois? (Isso pressupõe que esse exame seja mais barato do que realizar um experimento tentando provar uma causa). Esperamos que você termine em uma posição em que um experimento para mostrar a causa pareça valer a pena. Você pode prosseguir se não conseguir pensar em um mecanismo (A causa B, mas não temos idéia do porquê dessa possibilidade).
Nesse experimento, você precisa poder manipular a causa suspeita à vontade (por exemplo, se a causa for "tomar a pílula A", algumas pessoas receberão a pílula, outras não). Depois, você toma as precauções habituais, escolhendo as pessoas que tomam ou não a pílula aleatoriamente, sem você nem os testados sabendo quem recebeu e quem não recebeu. Você também tenta manter o restante do experimento igual (dar a pílula A às pessoas em uma sala quente e agradável com a luz do sol entrando pela janela, enquanto o outro grupo recebe uma pílula falsa em uma sala suja e desconfortável, isso pode afetar seus dados). Portanto, se você concluiu que a única diferença é essa pílula, e a causa para obter ou não a pílula foi uma decisão aleatória que não afetou mais nada,
fonte
Os dados intervencionistas (experimentais), descritos por gnasher e Peter, são a maneira mais direta de justificar um relacionamento causal. No entanto, apenas a resposta de Ash menciona a possibilidade de deduzir uma relação causal por meio de dados observacionais. Além do método backdoor que ele menciona, o método da porta da frente é outra maneira de estabelecer a causalidade com base em dados observacionais e em algumas suposições causais. Estes foram descobertos pela Judea Pearl. Tentei resumir e fornecer uma referência a estes aqui .
fonte
Para fazer uma afirmação causal, é necessário ter amostragem aleatória e atribuição aleatória
Portanto, ao selecionar um grupo de tratamento e controle do grupo amostrado acima, um número igual de pessoas com características semelhantes deve estar no grupo de tratamento e controle.
O grupo de tratamento é o grupo em que o medicamento é administrado às pessoas. O grupo controle é o grupo em que o medicamento não é administrado. Você também pode definir um grupo de placebo em que os indivíduos não recebem um medicamento, mas são informados de que estão sendo administrados.
Finalmente, se os efeitos são visíveis no grupo de tratamento, mas não no grupo de controle, podemos estabelecer a causa.
fonte