Um ditado popular de muitos estatísticos é "Correlação não implica causalidade". Isso certamente é verdade, mas uma coisa que parece implícita aqui é que a correlação tem pouco ou nenhum valor. Isso é verdade? É inútil ter conhecimento de que duas variáveis estão correlacionadas?
Não consigo imaginar que seja esse o caso. Não estou terrivelmente familiarizado com a análise preditiva, mas parece que, se X
for um preditor Y
, seria útil prever valores futuros Y
baseados em X
, independentemente da causalidade.
Estou incorreto ao ver o valor na correlação? E se não, em que situações um estatístico ou cientista de dados pode usar correlação sem causalidade?
correlation
predictive-models
causality
Indigenuity
fonte
fonte
Respostas:
A correlação (ou qualquer outra medida de associação) é útil para previsão, independentemente da causa. Suponha que você avalie uma associação clara e estável entre duas variáveis. O que isso significa é que conhecer o nível de uma variável também fornece algumas informações sobre outra variável de interesse, que você pode usar para ajudar a prever uma variável como uma função da outra e, o mais importante, executar alguma ação com base nessa previsão. . Tomar medidas envolve alterar uma ou mais variáveis, como ao fazer uma recomendação automatizada ou empregar alguma intervenção médica. Obviamente, você poderia fazer melhores previsões e agir com mais eficácia se tivesse mais conhecimento das relações diretas ou indiretas entre duas variáveis. Esse insight pode envolver outras variáveis, incluindo as espaciais e as temporais.
fonte
A
é um bom indicador, é muito tentador afirmar que essa também é a causa da doença - e, como mencionado nos comentários, é muito fácil chegar a conclusões erradas. Se queremos apenas fazer previsões, por exemplo, dizer se um paciente tem a doença ou não, não há problemas com correlações.Já existem muitos bons pontos aqui. Deixe-me descompactar sua afirmação de que "parece que, se
X
for um preditor deY
, seria útil prever valores futurosY
baseados emX
, independentemente da causalidade" um pouco. Você está correto: se tudo o que você deseja é poder prever umY
valor desconhecido a partir de umX
valor conhecido e de um relacionamento estável e conhecido, o status causal desse relacionamento é irrelevante. Considere isso:fonte
Eles não estão exagerando na importância da correlação. Só que a tendência é interpretar correlação como causação.
Tome a amamentação como o exemplo perfeito. As mães quase sempre interpretam os achados (estudos observacionais) sobre a amamentação como uma sugestão sobre se devem ou não amamentar. É verdade que, em média, os bebês amamentados tendem a ser adultos mais saudáveis em ordem de idade, mesmo depois de controlar a idade materna e paterna longitudinal, o status socioeconômico etc. Isso não implica que apenas a amamentação seja responsável pela diferença, embora possa parcialmente desempenham um papel no desenvolvimento inicial da regulação do apetite. A relação é muito complexa e pode-se facilmente especular sobre toda uma série de fatores mediadores que podem estar subjacentes às diferenças observadas.
Muitos estudos buscam associações para garantir uma compreensão mais profunda do que está acontecendo. A correlação não é inútil, apenas algumas etapas abaixo da causalidade e é preciso estar ciente de como relatar descobertas para evitar erros de interpretação.
fonte
Você está certo de que a correlação é útil. A razão pela qual os modelos causais são melhores que os modelos associativos é que - como Pearl diz - eles são oráculos para intervenções. Em outras palavras, eles permitem que você raciocine hipoteticamente. Um modelo causal responde à pergunta "se eu fizesse X acontecer, o que aconteceria com Y?"
Mas você nem sempre precisa raciocinar hipoteticamente. Se o seu modelo é única vai ser usado para responder a perguntas como "se eu observar X, o que eu sei sobre Y?", Em seguida, um modelo associativo é tudo que você precisa.
fonte
Você está certo de que a correlação é útil para previsão. Também é útil para entender melhor o sistema em estudo.
Um caso em que o conhecimento sobre o mecanismo causal é necessário é se a distribuição de destino foi manipulada (por exemplo, algumas variáveis foram "forçadas" a aceitar determinados valores). Um modelo baseado em correlações apenas terá um desempenho ruim, enquanto um modelo que usou informações causais deve ter um desempenho muito melhor.
fonte
A correlação é uma ferramenta útil se você tiver um modelo subjacente que explique a causalidade.
Por exemplo, se você souber que aplicar uma força a um objeto influencia seu movimento, é possível medir a correlação entre a força e a velocidade e a força e a aceleração. A correlação mais forte (com a aceleração) será explicativa por si só.
Em estudos observacionais, a correlação pode revelar certos padrões comuns (como a amamentação e a saúde posteriores) que podem servir de base para uma exploração científica adicional por meio de um projeto experimental adequado que pode confirmar ou rejeitar a causalidade (por exemplo, talvez em vez de a amamentação ser a causa). conseqüência para um certo quadro cultural).
Portanto, a correlação pode ser útil, mas raramente pode ser conclusiva.
fonte
Como você afirmou, a correlação sozinha tem muita utilidade, principalmente previsão.
Por exemplo, todos esses estudos que mostram que o uso pesado de café em idosos está correlacionado com sistemas cardiovasculares saudáveis são, em minha opinião, indubitáveis motivados por pessoas que desejam justificar seus hábitos pesados de café. No entanto, dizer que beber café está correlacionado apenas com corações mais saudáveis, em vez de causais, não ajuda em nada a responder à nossa verdadeira questão de interesse: seremos mais saudáveis se tomarmos mais café ou reduzirmos? Pode ser muito frustrante encontrar resultados muito interessantes (o café está vinculado a corações mais saudáveis!), Mas não ser capaz de usar essas informações para tomar decisões (ainda não sabemos se você deve tomar café para ser mais saudável), e quase sempre há uma tentação de interpretar correlação como causalidade.
A menos que você só goste de apostar (ou seja, você deseja prever, mas não influenciar).
fonte
Há valor na correlação, mas deve-se procurar mais evidências para concluir a causa.
Anos atrás, houve um estudo que resultou em "o café causa câncer". Assim que ouvi isso no noticiário, contei à minha esposa "correlação falsa". Acabou que eu estava correto. A população de café com 2-3 xícaras por dia teve uma taxa mais alta de fumantes do que os que não bebiam café. Depois que os coletores de dados descobriram isso, eles retiraram seus resultados.
Outro estudo interessante antes do boom e do colapso da habitação mostrou racismo no processamento de hipotecas. A alegação era de que os candidatos negros estavam sendo rejeitados em uma taxa mais alta do que os brancos. Mas outro estudo analisou as taxas de inadimplência. Proprietários de casas negras estavam inadimplentes na mesma proporção de brancos. Se o aplicativo preto estivesse sendo mantido em um padrão mais alto, sua taxa de inadimplência seria realmente muito menor. Nota: esta anedota foi compartilhada pelo autor Thomas Sowell em seu livro The Housing Boom and Bust
A mineração de dados pode facilmente produzir dois conjuntos de dados que mostram alta correlação, mas para eventos que não podem estar relacionados. No final, é melhor olhar para os estudos enviados com um olhar muito crítico. Encontrar correlações falsas nem sempre é fácil, é um talento adquirido.
fonte
A correlação é um fenômeno observável. Você pode medir isso. Você pode atuar nessas medidas. Por si só, pode ser útil.
No entanto, se tudo o que você tem é uma correlação, você não tem garantia de que uma alteração efetivamente terá efeito (veja os famosos gráficos que vinculam a ascensão dos iPhones à escravidão no exterior). Isso apenas mostra que existe uma correlação lá e, se você ajustar o ambiente (agindo), essa correlação ainda pode estar lá.
No entanto, esta é uma abordagem muito sutil. Em muitos cenários, queremos ter uma ferramenta menos sutil: causalidade. Causalidade é uma correlação combinada com uma alegação de que se você ajustar seu ambiente agindo de uma maneira ou de outra, deve-se esperar que a correlação ainda esteja lá. Isso permite um planejamento de longo prazo, como o encadeamento de 20 ou 50 eventos causais consecutivos para identificar um resultado útil. Fazer isso com 20 ou 50 correlações geralmente deixa um resultado muito confuso e sombrio.
Como um exemplo de como elas foram úteis no passado, considere a ciência ocidental versus a Medicina Tradicional Chinesa (MTC). A ciência ocidental se concentra principalmente em "Desenvolver uma teoria, isolar um teste que possa demonstrar a teoria, executar o teste e documentar os resultados". Isso começa com "desenvolver uma teoria", que está altamente ligada à causalidade. O TCM deu a volta, começando com "elaborar um teste que possa fornecer resultados úteis, executar o teste, identificar correlações na resposta". O foco é mais nas correlações.
Atualmente, os ocidentais tendem a preferir pensar quase inteiramente em termos de causalidade, de modo que o valor do estudo da correlação é mais difícil de espionar. No entanto, encontramos em todos os cantos da nossa vida. E nunca esqueça que, mesmo na ciência ocidental, as correlações são uma ferramenta importante para identificar quais teorias vale a pena explorar!
fonte