Acabei de fazer um exame em que fomos apresentados a duas variáveis. Em um jogo de ditadores em que um ditador recebe 100 dólares e pode escolher quanto enviar ou guardar para si mesmo, houve uma correlação positiva entre a idade e quanto dinheiro os participantes decidiram manter.
Meu pensamento é que você não pode inferir causalidade disso porque não pode inferir causalidade a partir da correlação. Meu colega de classe pensa que você pode, porque se você, por exemplo, dividir os participantes em três grupos separados, poderá ver como eles diferem quanto mantêm e quanto compartilham e, portanto, concluem que a idade os leva a manter mais. Quem está correto e por quê?
correlation
causality
JonnyBravo
fonte
fonte
Respostas:
Em geral, você não deve assumir que a correlação implica causalidade - mesmo nos casos em que parece ser a única razão possível.
Considere que há outras coisas que se correlacionam com os aspectos geracionais da idade da cultura, por exemplo. Talvez esses três grupos permaneçam os mesmos, mesmo com a idade, mas a próxima geração reverterá a tendência?
Tudo isso dito, você provavelmente está certo de que as pessoas mais jovens têm maior probabilidade de manter uma quantidade maior, mas esteja ciente de que existem outras possibilidades.
fonte
Posso postular várias causalidades dos seus dados.
A idade é medida e, em seguida, a quantidade de dinheiro guardada. Os participantes mais velhos preferem manter mais dinheiro (talvez sejam mais inteligentes ou menos idealistas, mas esse não é o ponto).
A quantidade de dinheiro guardada é medida e depois a idade. As pessoas que mantêm mais dinheiro gastam mais tempo contando e, portanto, são mais velhas quando a idade é medida.
As pessoas doentes mantêm mais dinheiro porque precisam de dinheiro para medicamentos ou tratamentos (possivelmente salvadores de vidas). A correlação real é entre doença e dinheiro mantido, mas essa variável é "oculta" e, portanto, chegamos à conclusão errada, porque a idade e a probabilidade de doença se correlacionam no grupo demográfico de pessoas escolhidas para o experimento.
(Omitindo 143 teorias; preciso manter isso razoavelmente curto)
Conclusão: você está correto, mas seu colega de classe pode alegar ser 147 vezes mais correto.
Outra correlação famosa é entre baixo QI e horas de TV assistidas diariamente. Assistir TV faz com que alguém seja burro ou pessoas burras assistem mais TV? Pode até ser os dois.
fonte
Inferir a causalidade da correlação em geral é problemático, pois pode haver várias outras razões para a correlação. Por exemplo, correlações espúrias devido a fatores de confusão , viés de seleção (por exemplo, escolher apenas participantes com uma renda abaixo de um certo limite) ou o efeito causal podem simplesmente ir na outra direção (por exemplo, um termômetro está correlacionado com a temperatura, mas certamente não causa isto). Em cada um desses casos, o procedimento do seu colega de classe pode encontrar um efeito causal onde não há.
No entanto, se os participantes fossem selecionados aleatoriamente, poderíamos descartar fatores de confusão e viés de seleção. Nesse caso, a idade deve causar dinheiro guardado ou o dinheiro mantido deve causar idade . O último implicaria que forçar alguém a manter uma certa quantia de dinheiro mudaria de alguma forma sua idade. Portanto, podemos assumir com segurança que a idade causa dinheiro guardado .
Observe que o efeito causal pode ser "direto" ou "indireto" . Pessoas de diferentes faixas etárias receberão uma educação diferente, terão uma quantidade diferente de riqueza etc., e por esses motivos poderão optar por manter uma quantia diferente dos US $ 100. Os efeitos causais por esses mediadores ainda são efeitos causais, mas são indiretos.
fonte
Correlação é um conceito matemático; causalidade é uma ideia filosófica.
Por outro lado, a correlação espúria é um conceito principalmente técnico (você não o encontrará nos livros didáticos de probabilidade teórica da medida) que pode ser definido de uma maneira que é mais acionável.
Essa ideia está intimamente relacionada à idéia do falsificacionismo na ciência - onde o objetivo nunca é provar coisas, apenas refutá- las.
Estatística é para matemática como medicina é para biologia. Você é solicitado a fazer o seu melhor julgamento com o apoio de uma riqueza de conhecimentos técnicos, mas esse conhecimento nunca é suficiente para cobrir o mundo inteiro. Portanto, se você quiser fazer julgamentos como estatístico e apresentá-los a outras pessoas, precisará seguir certos padrões de qualidade; ou seja, você está dando bons conselhos, dando a eles o valor do dinheiro. Isso também significa levar em consideração a assimetria dos riscos - em exames médicos, o custo de dar um resultado falso negativo (que pode impedir as pessoas de receber tratamento precoce) pode ser maior do que o custo de dar um falso positivo (que causa sofrimento) .
Na prática, esses padrões variam de campo para campo - às vezes são ECRs triplamente cegos, às vezes são variáveis instrumentais e outras técnicas para controlar a causa reversa e causas comuns ocultas, às vezes é a causalidade de Granger - que algo no passado se correlaciona consistentemente com outra coisa na presença, mas não na direção inversa. Pode até ser rigorosa regularização e validação cruzada.
fonte
A relação entre correlação e causalidade surpreendeu filósofos e estatísticos por séculos. Finalmente, nos últimos vinte anos, os cientistas da computação afirmam ter resolvido tudo. Isso não parece ser amplamente conhecido. Felizmente, Judea Pearl, uma das principais empresas nesse campo, publicou recentemente um livro explicando esse trabalho para um público popular: O Livro do Porquê.
https://www.amazon.com/Book-Why-Science-Cause-Effect/dp/046509760X
https://bigthink.com/errors-we-live-by/judea-pearls-the-book-of-why-brings-news-of-a-new-science-of-causes
Alerta de spoiler: Você pode inferir a causa da correlação em algumas circunstâncias, se souber o que está fazendo. Você precisa fazer algumas suposições causais para começar (um modelo causal, idealmente baseado na ciência). E você precisa das ferramentas para fazer o raciocínio contrafactual (a álgebra do-do). Desculpe, não posso destilar isso em algumas linhas (eu ainda estou lendo o livro), mas acho que a resposta para sua pergunta está aí.
fonte
Reivindicação causal de idade seria inadequada neste caso
O problema de reivindicar causalidade no design da pergunta do exame pode ser resumido em um simples fato: o envelhecimento não era um tratamento, a idade não era manipulada. O principal motivo para realizar estudos controlados é justamente porque, devido à manipulação e controle sobre as variáveis de interesse, você pode dizer que a alteração em uma variável causa a alteração no resultado (em condições experimentais extremamente específicas e com carga de barco) de outras suposições, como atribuição aleatória e que o pesquisador não estragou nada nos detalhes da execução, que eu casualmente descrevo aqui).
Mas não é isso que o design do exame descreve - ele simplesmente possui dois grupos de participantes, com um fato específico que os diferencia (sua idade); mas você não tem como conhecer nenhuma das outras maneiras pelas quais o grupo difere. Devido à falta de controle, você não pode saber se foi a diferença de idade que causou a alteração no resultado ou se é porque a razão pela qual as pessoas de 40 anos ingressam em um estudo é porque precisam do dinheiro enquanto as de 20 anos foram os alunos que estavam participando do crédito da turma e, portanto, tinham motivações diferentes - ou qualquer uma das mil diferenças naturais possíveis em seus grupos.
Agora, a terminologia técnica para esse tipo de coisa varia de acordo com o campo. Termos comuns para coisas como idade e sexo do participante são "atributo participante", "variável estranha", "variável independente de atributo" etc. Por fim, você acaba com algo que não é um "experimento verdadeiro" ou um "experimento controlado verdadeiro", porque o que você deseja reivindicar - como a idade - não estava realmente no seu controle para mudar, então o máximo que você pode esperar sem métodos muito mais avançados (como inferência causal, condições adicionais, dados longitudinais etc.) é afirmar que há uma correlação.
Isso também é uma das razões pelas quais os experimentos em ciências sociais e a compreensão de atributos difíceis de controlar das pessoas são tão complicados na prática - as pessoas diferem de várias maneiras e quando você não pode mudar as coisas que deseja para aprender, você tende a precisar de técnicas experimentais e inferenciais mais complexas ou de uma estratégia totalmente diferente.
Como você pode alterar o design para fazer uma reivindicação causal?
Imagine um cenário hipotético como este: os grupos A e B são compostos por participantes com 20 anos de idade.
Você tem o Grupo A no jogo da ditadura, como de costume.
Para o Grupo B, você faz um Raio Mágico da Ciência do Envelhecimento (ou talvez um Fantasma os trate com uma aparência horrível ), que você ajustou cuidadosamente para envelhecer todos os participantes do Grupo B, para que agora tenham 40 anos, mas caso contrário, deixe-os inalterados e faça com que eles joguem o jogo do ditador, assim como o Grupo A.
Para um rigor extra, você pode solicitar que um grupo C de 40 anos de idade naturalmente confirme que o envelhecimento sintético é comparável ao envelhecimento natural, mas vamos simplificar as coisas e dizer que sabemos que o envelhecimento artificial é exatamente como o real com base em "anterior" trabalhos".
Agora, se o Grupo B reter mais dinheiro que o Grupo A, você pode afirmar que o experimento indica que o envelhecimento faz com que as pessoas mantenham mais dinheiro. É claro que ainda existem aproximadamente mil razões pelas quais sua alegação pode estar errada, mas seu experimento tem pelo menos uma interpretação causal válida.
fonte
Não. Existe uma relação lógica unidirecional entre causalidade e correlação.
Considere correlação uma propriedade que você calcula em alguns dados, por exemplo, a correlação (linear) mais comum, conforme definida por Pearson. Para esta definição específica de correlação, você pode criar pontos de dados aleatórios que terão uma correlação de zero ou de um sem ter nenhum tipo de causalidade entre eles, apenas com certas (a) simetrias. Para qualquer definição de correlação, você pode criar uma prescrição que mostrará os dois comportamentos: altos valores de correlação sem relação matemática entre e baixos valores de correlação, mesmo se houver uma expressão fixa.
Sim, a relação de "não relacionado, mas altamente correlacionada" é mais fraca que "sem correlação, apesar de estar relacionada". Mas o único indicador (!) Que você tem se houver correlação é que você precisa procurar mais uma explicação para isso.
fonte
Geralmente você não pode pular da correlação para a causação. Por exemplo, há um fenômeno bem conhecido das ciências sociais sobre status / classe social e propensão a gastar / economizar. Para muitos muitos anos acreditou-se que este mostrou causalidade. No ano passado, pesquisas mais intensas mostraram que não era.
"Correlação não é causalidade" clássica - nesse caso, o fator de confusão foi que o crescimento na pobreza ensina as pessoas a usar o dinheiro de maneira diferente e a gastar se houver um excedente, porque pode não estar lá amanhã, mesmo que seja salvo por várias razões .
No seu exemplo, suponha que todos os idosos tenham passado por uma guerra, o que os mais jovens não. O elo pode ser que as pessoas que cresceram em caos social, com risco real de danos e perda de vidas, aprendam a priorizar a economia de recursos para si e contra as necessidades, mais do que aquelas que crescem em circunstâncias mais felizes, onde o estado, os empregadores ou as seguradoras de saúde cuidam disso, e a sobrevivência não é um problema que moldou suas perspectivas. Então você obteria o mesmo elo aparente - as pessoas mais velhas (incluindo as mais próximas de sua geração) mantêm mais, mas aparentemente apenas isso estaria relacionado à idade. Na realidade, o elemento causador é a situação social em que passamos anos de formação e que hábitos ensinavam - não a idade em si .
fonte
Existem algumas razões pelas quais essa conclusão não faz sentido.
Uma melhoria sugerida no design é o seguinte estudo do tipo cruzado.
fonte
Causalidade e correlação são diferentes categorias de coisas. É por isso que a correlação sozinha não é suficiente para inferir a causalidade.
Por exemplo, causalidade é direcional , enquanto correlação não é. Ao inferir causalidade, você precisa estabelecer o que é causa e o que é efeito.
Há outras coisas que podem interferir na sua inferência. Variáveis ocultas ou terceiras e todas as questões estatísticas (seleção da amostra, tamanho da amostra, etc.)
Mas, supondo que suas estatísticas sejam feitas corretamente, a correlação pode fornecer pistas sobre causalidade. Normalmente, se você encontrar uma correlação, significa que há algum tipo de causalidade em algum lugar e você deve começar a procurá-la.
Você pode absolutamente começar com uma hipótese derivada de sua correlação. Mas uma hipótese não é uma causalidade, é apenas uma possibilidade de uma causalidade. Você precisa testá-lo. Se sua hipótese resiste a tentativas suficientes de falsificação, você pode entender alguma coisa.
Por exemplo, na sua hipótese idade-causa-ganância, uma hipótese alternativa seria a de que não é a idade, mas a duração de ser um ditador. Então, você procuraria por ditadores antigos, mas recentemente capacitados, como grupo de controle, e jovem, mas ditador desde a infância, como segundo grupo e verificaria os resultados lá.
fonte
Obrigado a @AdamO por oferecer muita discussão e pontos de discórdia a este post. Estou tentando oferecer uma visão física da causalidade, que pode não ser familiar para o leitor médio de estatísticas.
Você está correto do ponto de vista das ciências físicas. De uma forma mais simples, a possibilidade de uma visão física da causalidade, independente do tempo, está na base da visão dedutivo-nomológica (DN) da explicação científica, considerando um evento a ser explicado se puder ser incluído na lei científica. Na visão do DN, um estado físico é considerado explicado se, aplicando a lei (determinística), puder ser derivado de determinadas condições iniciais. (Tais condições iniciais podem incluir o momento e a distância um do outro das estrelas binárias a qualquer momento.) Essa 'explicação por determinismo' é algumas vezes referida como determinismo causal.
Para ficar um pouco mais completo sobre isso, incluiria o modelo estatístico-indutivo de Hempel para formar uma explicação científica , cujo link oferece uma discussão mais completa sobre causalidade.
Quanto ao problema em questão, a idade pode estar relacionada à experiência, mas o relacionamento não é simples; além disso, a função cerebral em diferentes idades é diferente (a demarcação do tempo se dilata com a idade). A experiência como modificador de comportamento é bastante variável, e apenas porque uma coorte, em certo sentido territorial e temporal, pode ter experiências históricas semelhantes, não implica que qualquer comportamento resultante dessas experiências possa ser extrapolado para outras coortes sem medo de contradição. Com relação a um estudo controlado, o ponto em comum das experiências é uma variável não controlada que introduz uma quantidade desconhecida e inexplorada de correlação espúria em qualquer comparação binária, de modo que qualquer diferença encontrada não deva ser pensada como reveladora de uma ligação provavelmente causal. Além disso, uma causa provável, quando encontrada, constituiria apenas uma suspeita e não algo que se possa afirmar com convicção; é, na melhor das hipóteses, uma hipótese de trabalho, não uma melhor conclusão. Convicções relativas à causalidade devem ser extraídas apenas de um conjunto de evidências que seja inclusivo o suficiente para que essas convicções sejam sem dúvida razoável. Esse não é o caso da questão acima, para a qual não há informações suficientes para reivindicar qualquer relação causal além de um contexto coincidente do agrupamento de coortes. Pode-se, de fato, formular tantas hipóteses, por exemplo, que a evolução da generosidade com a idade é modificada pela experiência da época cultural / histórica, que nenhuma conclusão firme pode ser tirada do problema, como afirmado. Convicções relativas à causalidade devem ser extraídas apenas de um conjunto de evidências que seja inclusivo o suficiente para que essas convicções sejam sem dúvida razoável. Esse não é o caso da questão acima, para a qual não há informações suficientes para reivindicar qualquer relação causal além de um contexto coincidente do agrupamento de coortes. Pode-se, de fato, formular tantas hipóteses, por exemplo, que a evolução da generosidade com a idade é modificada pela experiência da época cultural / histórica, que nenhuma conclusão firme pode ser tirada do problema, como afirmado. Convicções relativas à causalidade devem ser extraídas apenas de um conjunto de evidências que seja inclusivo o suficiente para que essas convicções sejam sem dúvida razoável. Esse não é o caso da questão acima, para a qual não há informações suficientes para reivindicar qualquer relação causal além de um contexto coincidente do agrupamento de coortes. Pode-se, de fato, formular tantas hipóteses, por exemplo, que a evolução da generosidade com a idade é modificada pela experiência da época cultural / histórica, que nenhuma conclusão firme pode ser tirada do problema, como afirmado.
fonte