Sei que essa pergunta foi feita um bilhão de vezes, portanto, depois de procurar on-line, estou totalmente convencido de que a correlação entre duas variáveis não implica causalidade. Em uma das minhas palestras sobre estatísticas hoje, tivemos uma palestra de um físico sobre a importância dos métodos estatísticos na física. Ele disse uma declaração surpreendente:
correlação não implica causalidade, a menos que uma das variáveis seja o tempo. Portanto, se houver uma forte correlação entre alguma variável independente e o tempo, isso também implica causalidade.
Eu nunca tinha ouvido essa declaração antes. Os físicos / relativistas veem "Causação" de maneira diferente das estatísticas das pessoas?
correlation
mathematical-statistics
causality
Thomas Moore
fonte
fonte
Respostas:
Vou dar outra resposta, já que acho que as que estão atualmente em falta perdem um ponto importante da afirmação feita pelo físico. A declaração citada é:
O físico não está dizendo:
Isso seria incorreto. O que o físico está dizendo é:
Um exemplo pode ser entropia. Se tivermos uma forte correlação entre o passar do tempo e o aumento da entropia, poderíamos dizer que o aumento do tempo causa um aumento na entropia. Observe que isso ignora quais podem ser as causas físicas da crescente entropia (decaimento de partículas, universo em expansão etc.).
Um dos requisitos tradicionais de causalidade é a progressão do tempo, ou seja, que X só pode causar Y se X for anterior a Y. Mas se uma das suas variáveis for o tempo, a progressão do tempo já estará incorporada ao relacionamento (se existir um relacionamento).
Edição: Com base em uma variedade de comentários, vou adicionar o seguinte. Eu acho que o físico pode estar usando uma idéia diferente da palavra "causalidade" aqui. Ele parece estar dizendo que, se houver uma correlação entre uma variável independente e o tempo, você pode concluir que a variável independente muda previsivelmente com o passar do tempo. Algumas pessoas podem dizer que as mudanças são "causadas" pela passagem do tempo, não é assim que os estatísticos usam as palavras "causa" ou "causação", de modo que isso pode estar causando alguma confusão.
fonte
Não sabemos o que o físico quis dizer. Seguem duas interpretações diferentes.
A afirmação de que precede Y e está sendo correlacionada com Y implica que X causa Y está errado. Não é o suficiente para X e Y ser dependente mesmo que X precede Y . Por exemplo, X e Y podem ambos ser causada por alguma outra variável W : X ← W → Y . Ou, um padrão ainda mais complicado pode surgir: X ← V → Z ← W → Y onde ZX Y Y X Y X Y X Y X Y W X←W→Y X←V→Z←W→Y Z é observado. Agora e Y são dependentes e não têm causa comum, mas nenhuma causa a outra.X Y
Contudo, a precedência temporal simplifica bastante as condições para afirmar uma relação causal, que você pode encontrar no livro 2.7 de Causalidade de Pearl, "Critérios locais para relações causais".
Essencialmente, (1) implica que é uma causa potencial de Y dada a precedência temporal e (2) implica que X é capaz de quebrar essa relação, o que só poderá acontecer se X faz com que Y .Z Y X X Y
Essa condição é muito mais simples que a definição de Pearl para uma causa genuína sem informação temporal.
Outra hipótese aventada em algumas das outras respostas é que o físico significava que, se é a passagem do tempo e está correlacionada com a Y , então X causa Y . Essa afirmação está correta, mas vazia, pois a passagem do tempo é a causa de todas as outras variáveis, pelo que quero dizer que a estrutura gráfica causal é assim. Uma estrutura gráfica causal é um conjunto de afirmações sobre relacionamentos de independência, dadas observações e intervenções.X Y X Y
fonte
Especulo que seu professor convidado quis dizer que, na física, as únicas correlações que sobrevivem à replicação são aquelas em que existe uma relação causal subjacente. A variável tempo é uma exceção, porque é a única variável que não é controlada pelo físico. Aqui está o porquê.
Em física, geralmente lidamos com fenômenos e experimentos repetíveis. De fato, é quase certo que qualquer experimento seja repetível e possa ser replicado por você mais tarde ou por outros pesquisadores. Então, digamos que você observe uma amostra em que são observações da variável de interesse e variáveis independentes x k . Como mencionei acima, controlar totalmente as variáveis x k , e pode configurá-los para qualquer valor que desejar.yEu, xk i xk xk
A sua cara físico está dizendo que nesta configuração que você não vai ver nenhuma correlação a menos que haja um nexo de causalidade. Por quê? Como alguém ou até você mesmo repetirá o experimento com qualquer combinação e sequência de x k j , e apenas as correlações com os relacionamentos causais sobreviverão às replicações de um experimento. Todas as outras correlações (falsas) desaparecerão quando você coletar dados suficientes em todas as combinações possíveis de um experimento.Co r r [ y, xk] xk j
Essa situação contrasta fortemente com as ciências sociais e alguns aplicativos de negócios em que você não pode fazer experimentos. Você observa apenas uma sequência do PIB de um país e não pode mudar o desemprego mantendo tudo igual e observar as correlações.
Agora, o tempo é a única variável que um físico não pode controlar. Só existe um dia 1 de janeiro de 2017. Ele não pode repetir este dia. Ele pode repetir qualquer outra variável, mas não o tempo. É por isso que, quando chega a hora (e não da idade ou do tempo decorrido), um físico está no mesmo barco que todos os outros: a correlação não implica causalidade para ele.
fonte
Eu não ouvi isso antes, e seria não ser verdade de acordo com as concepções de causalidade que estou familiarizado com (embora eu não sou um físico).
Normalmente, para causar Y , é necessário que X anteceda Y a tempo. Portanto, se Y preceder X , ele não poderá ser "causado" por X , independentemente de qualquer correlação. Além disso, X que precede Y não é uma condição suficiente para a causalidade (também independentemente de qualquer correlação).X Y X Y Y X X X Y
fonte
Não acho que o tempo seja necessariamente único nisso, mas certamente é um bom exemplo. O ponto é que, tipicamente, se A e B estão correlacionados, você pode supor que exista alguma causalidade comum, mas não sabe se A causa B ou B causa A, ou talvez uma terceira variável C cause ambos A e B. , em certos casos, você pode descartar que qualquer outra variável tenha causado A e, portanto, deve ser que A tenha causado B. Um exemplo é um experimento controlado, em que você , o experimentador, controla A. Em seguida, se a alteração feita em A "se correlaciona" com uma mudança em B, você sabe que deve ter sido A que causou a mudança de B, e não o contrário.
Outro tipo de cenário, que é esse exemplo com o tempo, é se você simplesmente sabe que nenhuma outra variável poderia ter causado A porque você sabe que nada pode influenciar A. Como o tempo flui apenas um segundo por vez, independentemente de qualquer outra variável no mundo, se o tempo se correlacionar com as mudanças em alguma variável de seu interesse (digamos, o número de pessoas no planeta), você tem certeza de que a passagem do tempo deve ter causado a alteração dessa variável, do que a sua variável, fazendo com que o tempo passe ou mude (ou seja, o tempo não avançou porque mais pessoas nasceram, tem que ser o contrário).
O que você ainda não sabe, é claro, é se a causalidade é direta. Presumivelmente, a passagem do tempo em si não produz automaticamente mais seres humanos. Em vez disso, o desenrolar da história causa progresso em vários aspectos da sociedade, e isso faz com que a população aumente de tamanho (e até isso é uma simplificação de muitas pequenas relações causais). Mas, independentemente dos fatores precisos em jogo, você definitivamente sabe que A (no final das contas) leva a B e não o contrário.
fonte
Na verdade, a correlação implica uma relação causal.
Talvez A tenha causado B ou C tenha causado A e B.
No entanto, a correlação não prova causalidade.
Isso é auto-evidente.
fonte
Eu interpretaria isso como um argumento semântico e não matemático / estatístico. Eu também consideraria isso uma generalização bastante severa.
Os Critérios de Bradford Hill , freqüentemente usados em epidemiologia, fornecem uma boa estrutura para pensar sobre causalidade. Nada pode provar definitivamente a causalidade, se o tempo é ou não um fator, e suspeito que o professor não estava tentando fazer uma afirmação tão forte. No entanto, muitos fatores diferentes podem ser usados como argumentos razoáveis para a causação.
Por exemplo, os critérios de Bradford Hill sugerem que a força da associação entre variáveis pode fornecer evidências de causalidade, mas não é por si só suficiente. Da mesma forma, uma associação que seja consistente com outros fatos conhecidos / acreditados pode sugerir uma causa mais fortemente do que uma associação que seja inconsistente com o conhecimento predominante. A temporalidade também é um dos critérios - uma causa deve preceder seu efeito. Uma associação e as inferências que fazemos sobre causação devem fazer sentido temporal. Eu recomendo revisar os outros critérios. Alguns são específicos da epidemiologia e não são tão aplicáveis à física, mas ainda é uma maneira útil de pensar.
O ponto principal é que, embora nenhuma evidência única prove definitivamente a causa, você pode criar um bom argumento para isso com base em várias verificações lógicas diferentes. Eu argumentaria que dar precedência absoluta a qualquer critério, como o tempo, não é apropriado, mas a temporalidade pode ser um fator importante ao argumentar que a causa é plausível.
Isso leva a um ponto mais amplo sobre estatística: de um modo geral, usamos estatísticas para argumentar. Usamos dados e ferramentas estatísticas para fazer um certo ponto. Freqüentemente, os mesmos dados (e até as mesmas ferramentas) podem ser usados para criar pontos conflitantes. Não podemos localizar a prova definitiva de causalidade na própria matemática, mas podemos implantar nossas ferramentas estatísticas como parte de um argumento mais amplo. Para mais informações, recomendo as Estatísticas de Abelson como argumento de princípios.
Para voltar à situação original, digamos que você tenha feito um experimento sobre o efeito de uma concentração de um determinado produto químico em uma solução na temperatura dessa solução. Você suspeita que adicionar mais desse produto químico resultará em uma reação que aumenta a temperatura. Você adiciona mais gradualmente ao longo do tempo. Você pode olhar a temperatura contra o tempo e ver um aumento. Tudo isso mostra que a temperatura está aumentando com o tempo; não prova que o próprio tempo (ou qualquer outra coisa, aliás) tenha algum efeito causal. No entanto, fornece algumas evidências em um argumento mais amplo de que o aumento da concentração desse produto químico resulta em uma reação que aumenta a temperatura.
fonte
A frase é bastante simples e não vale a pena pensar demais (e não tem nada a ver com precedência).
Se existe uma correlação estabelecida entre uma variável e o tempo (ou seja, sabemos que um aumento no tempo é acompanhado por um aumento na variável, e isso é um dado ), então conhecemos a direção "causal": ou seja, o aumento do tempo causa a variável a aumentar.
Como a hipótese alternativa de "nah-uh, poderia ser que o tempo só aumentasse porque a variável aumentou primeiro " simplesmente não pode suportar, dada a maneira como o tempo funciona.
Isso pode parecer uma observação tola, mas tem implicações importantes para o desenho do estudo, tentando provar uma direção causal. Um exemplo importante na medicina é a diferença entre fazer um estudo transversal e um estudo de coorte.
Por exemplo, um estudo transversal tentando encontrar uma ligação entre tabagismo e câncer pode levar um grupo de pessoas, dividi-lo em fumantes versus não fumantes e ver quantos em cada grupo têm câncer versus não-câncer. No entanto, essa é uma evidência fraca, porque uma correlação entre tabagismo e câncer também pode ser interpretada como "pessoas com câncer têm maior probabilidade de gostar de fumar".
No entanto, se você realizar um estudo de coorte, ou seja, pegar um grupo de fumantes e um grupo de não fumantes, acompanhá-los ao longo do tempo, medir a variável "câncer em fumantes menos câncer em não fumantes" e estabelecer um resultado positivo. correlação dessa variável com o tempo (sob suposições razoáveis, de modo que a quantidade de fumar iniciada seja constante e independente do tempo, etc.), então você sabe que "tempo" é a causa da diferença de câncer, uma vez que não é possível afirmar que o aumento das taxas de câncer causou tempo para passar mais no grupo de fumantes. Portanto, você pode reivindicar uma causa entre o passar do tempo e uma diferença positiva de câncer relacionada a taxas mais altas no grupo de fumantes. (ou, mais simplesmente, o tempo gasto no grupo de fumantes causa um aumento proporcional no risco de câncer).
Além disso, a fraqueza do estudo transversal, ou seja, a possibilidade de que "as pessoas com câncer têm maior probabilidade de começar a fumar" desapareceu agora, já que fumar como variável foi retirado do "tempo versus câncer" equação (aqui assumida como constante e, portanto, não afetada pelo tempo). Em outras palavras, formulando o estudo dessa maneira, examinamos uma direção causal muito específica . Se quiséssemos examinar em que medida a direção causal inversa se aplica (ou seja, qual é a probabilidade de as pessoas que acabarem tendo câncer começarem a fumar com o passar do tempo), teríamos, necessariamente, que elaborar um estudo de coorte dividido em "câncer futuro vs câncer sem futuro" e mede a aceitação do fumo ao longo do tempo.
Atualização respondendo aos comentários:
Observe que esta é uma discussão sobre uma direção causal, e não sobre como encontrar um link causal direto. A questão da confusão é outra. (ou seja, não há nada a sugerir que não é uma organização independente terceira variável que tanto o torna mais provável que seja um fumante e aumenta suas chances de câncer com o tempo). Ou seja, em termos de causalidade contrafactual, não demonstramos definitivamente que "se não fosse o fumo, essas pessoas não teriam câncer". Mas temosmostraram que "a associação entre grupo de fumantes e câncer não teria aumentado se o tempo não tivesse passado". (ou seja, a associação não se resume a um instantâneo de pessoas com câncer, a mera preferência por estar no grupo de fumantes ou não, mas é reforçada ao longo do tempo).
fonte
Esta é realmente uma questão de como estabelecer causalidade, porque eventos relacionados, mas não causativos, provavelmente estarão correlacionados no tempo ou no espaço. Então, analisando alguns dados correlatos, como podemos determinar se o relacionamento é dependente? Um sábio consultor de pesquisa me disse uma vez: "correlação não implica causalidade, apenas diz para onde procurar".
Vamos considerar a situação em que os eventos A e B são correlacionados temporal ou espacialmente. Se quisermos investigar a preposição de que A causa B , a linha tradicional de pensamento é introduzir testes de necessidade e suficiência - que é o que realmente significa causalidade.
Se não tomar leite faz com que eu vá à loja , o que estamos dizendo não é que eu entre no meu leite vazio e dirijo. A causalidade absoluta significaria que, sempre que ainda tenho leite , não me incomodo em ir à loja; e, inversamente, sempre que estou na loja, é porque não tenho leite. Agora é fácil ver o problema de estabelecer positivamente a causalidade no sentido rigoroso: a maioria das coisas não é absolutamente causal. Há muitas outras razões pelas quais eu poderia ir à loja que não estão relacionadas ao estado do leite.
Essa é uma maneira fácil de distinguir um ótimo papel de um bom papel. Em uma pesquisa cuidadosa, você verá testes de suficiência e necessidade em todos os lugares. Alegando que o medicamento de moléculas pequenas A pode levar à desmontagem do complexo proteico B? Você verá imediatamente os testes:
necessidade
----test---- ----result---- everything but B --> [nothing] (check for false positive) everything but A --> assembled everything with A-like compound --> assembled (control group)
suficiência
A + B alone (in vitro) --> disassembled (check for false negative) A + B + everything --> disassembled (trial group)
Esta é a maneira tradicional com a qual você criaria um argumento indutivo para a causalidade USANDO a correlação, que é o que eu estou confiante de que seu professor estava fugindo!
fonte