A correlação não implica causalidade, pois pode haver muitas explicações para a correlação. Mas a causalidade implica correlação? Intuitivamente, eu pensaria que a presença de causação significa que há necessariamente alguma correlação. Mas minha intuição nem sempre me serviu bem em estatística. A causalidade implica correlação?
correlation
causality
Mateus
fonte
fonte
Respostas:
Como muitas das respostas acima afirmaram, a causação não implica correlação linear . Como muitos dos conceitos de correlação vêm de campos que dependem fortemente de estatísticas lineares, geralmente a correlação é vista como igual à correlação linear. O artigo da Wikipedia é uma boa fonte para isso, eu realmente gosto desta imagem:
Veja algumas das figuras na linha inferior, por exemplo, a forma parábola no quarto exemplo. É o que acontece na resposta do @StasK (com um pouco de ruído adicionado). Y pode ser totalmente causado por X, mas se o relacionamento numérico não for linear e simétrico, você ainda terá uma correlação de 0.
A palavra que você procura é informação mútua : esse é o tipo de versão geral não linear da correlação. Nesse caso, sua afirmação seria verdadeira: a causação implica em alta informação mútua .
fonte
A resposta estrita é "não, a causa não implica necessariamente correlação".
Considere e . Causalidade não existe nada mais forte: determina . No entanto, a correlação entre e é 0. Prova: Os momentos (conjuntos) dessas variáveis são: ; ; usando a propriedade da distribuição normal padrão de que seus momentos ímpares são todos iguais a zero (pode ser facilmente derivada de sua função geradora de momentos, por exemplo). Portanto, a correlação é igual a zero.X∼N(0,1) Y=X2∼χ21 X Y X Y E[X]=0 E[Y]=E[X2]=1
Para abordar alguns dos comentários: a única razão pela qual esse argumento funciona é porque a distribuição de é centrada em zero e é simétrica em torno de 0. De fato, qualquer outra distribuição com essas propriedades com número suficiente de momentos teria funcionado. local de , por exemplo, uniforme em ou Laplace . Um argumento simplificado é que, para todo valor positivo de , existe um valor negativo igualmente provável de da mesma magnitude; portanto, quando você quadraciona o , não pode dizer que valores maiores de estão associados a valores maiores ou menores deX N(0,1) (−10,10) ∼exp(−|x|) X X X X Y . No entanto, se você escolher , então , , e . Isto faz todo o sentido: para cada valor de abaixo de zero, existe um valor muito mais provável de que é acima de zero, por isso, maiores valores de estão associadas com maiores valores de . (A última possui uma distribuição não central ; você pode obter a variação da página da Wikipedia e calcular a correlação, se estiver interessado.)X∼N(3,1) E[X]=3 E[Y]=E[X2]=10 E[X3]=36 X - X X Y χ 2Cov[X,Y]=E[XY]−E[X]E[Y]=36−30=6≠0 X −X X Y χ2
fonte
Essencialmente sim.
A correlação não implica causalidade porque poderia haver outras explicações para uma correlação além da causa. Mas, para que A seja uma causa de B, eles devem estar associados de alguma forma . Significando que há uma correlação entre eles - embora essa correlação não precise necessariamente ser linear.
Como alguns dos comentaristas sugeriram, provavelmente é mais apropriado usar um termo como 'dependência' ou 'associação' em vez de correlação. Embora, como mencionei nos comentários, vi "correlação não significa causalidade" em resposta à análise muito além da simples correlação linear, e, para os propósitos do ditado, estendi essencialmente a "correlação" a qualquer associação entre A e B.
fonte
Adicionando à resposta do @EpiGrad. Eu acho que, para muitas pessoas, "correlação" implicará "correlação linear". E o conceito de correlação não linear pode não ser intuitivo.
Então, eu diria "não, eles não precisam ser correlacionados, mas precisam ser relacionados ". Estamos concordando com a substância, mas discordando sobre a melhor maneira de transmitir a substância.
Um exemplo dessa causa (pelo menos as pessoas pensam que é causal) é entre a probabilidade de atender o telefone e a renda. Sabe-se que as pessoas de ambos os lados do espectro de renda têm menos probabilidade de atender seus telefones do que as pessoas do meio. Pensa-se que o padrão causal seja diferente para os pobres (por exemplo, evite cobradores) e ricos (por exemplo, evite as pessoas pedindo doações).
fonte
As coisas são definitivamente sutis aqui. Causar não implica correlação nem dependência estatística, pelo menos não da maneira simples como geralmente pensamos sobre elas, ou da maneira que algumas respostas sugerem (apenas transformando ou etc).X Y
Considere o seguinte modelo causal:
Ou seja, ambos e causa .X U Y
Agora deixe:
Suponha que você não observar . Observe que . Ou seja, mesmo que cause (no sentido da equação estrutural não paramétrica), você não vê nenhuma dependência! Você pode fazer qualquer transformação não linear que desejar e que não revelará nenhuma dependência, porque não há nenhuma dependência marginal de e aqui.U P(Y|X)=P(Y) X Y Y X
O truque é que, apesar de e causarem , marginalmente seu efeito causal médio é zero. Você só vê a dependência (exata) ao condicionar e juntos (isso também mostra que e não implica ). Então, sim, pode-se argumentar que, embora causa , o efeito causal marginal de em é zero, então é por isso que não vemos a dependência de e . Mas isso apenas ilustra como o problema é sutil, porqueU Y X U X ⊥ Y U ⊥ Y { X , U } ⊥ Y X Y X Y X Y X Y UX U Y X U X⊥Y U⊥Y {X,U}⊥Y X Y X Y X Y X causa , não apenas da maneira que você pensaria ingenuamente (ele interage com ).Y U
Então, resumindo, eu diria que: (i) a causalidade sugere dependência; mas (ii) a dependência é funcional / estrutural e pode ou não ser traduzida na dependência estatística específica em que você está pensando.
fonte
A causa eo efeito será correlacionado menos que não haja variação em tudo na incidência e magnitude da causa e nenhuma variação em tudo em sua força causal. A única outra possibilidade seria se a causa estivesse perfeitamente correlacionada com outra variável causal com exatamente o efeito oposto. Basicamente, essas são condições de experimento mental. No mundo real, a causação implicará dependência de alguma forma (embora possa não ser uma correlação linear ).
fonte
Há ótimas respostas aqui. Artem Kaznatcheev , Fomite e Peter Flom apontam que a causalidade geralmente implicaria dependência e não correlação linear. Carlos Cinelli dá um exemplo em que não há dependência, por causa de como a função de geração é configurada.
Quero acrescentar um ponto sobre como essa dependência pode desaparecer na prática, nos tipos de conjuntos de dados com os quais você pode trabalhar. Situações como o exemplo de Carlos não se limitam a meras "condições de experimento mental".
As dependências desaparecem nos processos de autorregulação . A homeostase, por exemplo, garante que a temperatura interna do corpo permaneça independente da temperatura ambiente. O calor externo influencia diretamente a temperatura do corpo, mas também influencia os sistemas de refrigeração do corpo (por exemplo, sudorese), que mantêm a temperatura do corpo estável. Se amostrarmos a temperatura em intervalos extremamente rápidos e usarmos medidas extremamente precisas, teremos a chance de observar as dependências causais, mas em taxas de amostragem normais, a temperatura corporal e a temperatura externa parecem independentes.
Processos de autorregulação são comuns em sistemas biológicos; eles são produzidos pela evolução. Mamíferos que não conseguem regular a temperatura do corpo são removidos por seleção natural. Os pesquisadores que trabalham com dados biológicos devem estar cientes de que as dependências causais podem desaparecer em seus conjuntos de dados.
fonte
Uma causa sem correlação não seria um rng?
A menos que, como a resposta aceita implique, você esteja usando uma interpretação incrivelmente limitada da palavra 'correlação', é uma pergunta boba - se uma coisa 'causa' outra, é por definição afetada por ela de alguma forma, se é uma aumento da população, ou apenas intensidade.
direito?
Então, novamente, você poderia estar discutindo algo mais parecido, a visibilidade de algo sendo afetado por outra coisa, que eu acho que pareceria causalidade, mas na verdade você não está medindo o que pensa que está medindo ...
Então, sim, acho que a resposta curta seria "Sim, desde que você não possa criar entropia".
fonte