Problemas na causalidade do livro da pérola da Judéia

11

Estou começando a ler Inferência Causal em Estatística, Uma cartilha de Judea Pearl et. al. Eu tenho mestrado em matemática, mas nunca fiz um curso de estatística. Estou um pouco confuso com uma das perguntas iniciais do estudo, e não há ninguém que eu possa perguntar sobre isso, então espero que alguém neste site critique minhas respostas para mim. (Este não é um problema de lição de casa. Sou aposentado, apenas mantendo minha mente ativa.) Observe que não há dados específicos fornecidos nos problemas.

a) Existem dois tratamentos para pedras nos rins, o Tratamento A e o Tratamento B. Os médicos têm maior probabilidade de prescrever o Tratamento A em pedras grandes (e, portanto, mais graves) e mais propensos a prescrever o Tratamento B em pedras pequenas. Um paciente que não conhece o tamanho de sua pedra deve examinar os dados gerais da população ou os dados específicos de tamanho ao determinar qual tratamento será mais eficaz?

b) Existem dois médicos em uma cidade pequena. Cada um realizou 100 cirurgias em sua carreira, que são de dois tipos: uma cirurgia muito fácil e outra muito difícil. O primeiro médico realiza a cirurgia fácil com muito mais frequência do que a cirurgia difícil e o segundo realiza a cirurgia difícil com mais frequência do que a cirurgia fácil. Você precisa de cirurgia, mas não sabe se o seu caso é fácil ou difícil. Você deve consultar a taxa de sucesso de cada médico em todos os casos ou deve consultar as taxas de sucesso para os casos fáceis e difíceis separadamente, para maximizar a chance de uma cirurgia bem-sucedida?

Quanto à parte a) é razoável supor que haja desvantagens no tratamento A em comparação ao tratamento B, ou por que não é prescrito o tempo todo? Então, parece-me que não posso tomar uma decisão inteligente sem saber o tamanho da minha pedra nos rins. Eu esperaria que os dados mostrassem que o tratamento A fosse mais eficaz em pedras grandes e pelo menos tão eficaz em pedras pequenas, mas não gostaria de assumir os riscos presumidos do tratamento A se minha pedra fosse pequena. Supondo que pedras pequenas quase sempre possam ser tratadas com sucesso, eu esperaria que o Tratamento B apresentasse uma taxa de sucesso mais alta na população em geral, mas eu não gostaria de adotar o Tratamento B se eu tiver uma pedra grande.

Parece-me que os dados são inúteis, a menos que eu saiba o tamanho da minha pedra. Essa é a resposta para a pergunta, talvez? A coisa toda parece meio inútil, porque não posso ir à farmácia e comprar qualquer tratamento sem receita. Meu médico receitará, e se ele não puder (ou não quiser) me dizer o tamanho da pedra, mudarei de médico.

Quanto à parte b), é claro que você deseja examinar as taxas dos procedimentos separadamente, mas as taxas por si só não são suficientes. Suponha que o primeiro médico tenha realizado a cirurgia difícil apenas uma vez, com um resultado bem-sucedido, e o segundo médico tenha realizado 37 vezes, com 35 sucessos. Eu estaria muito inclinado a ir com o segundo médico, mas gostaria de comparar 35 em 37 com as normas nacionais e também se as duas falhas ocorrerem no início de sua carreira (enquanto ele ainda estava aprendendo) ou mais recentemente ( depois que ele começou a beber muito).

É esse tipo de discussão que os problemas exigem, ou se espera uma resposta mais detalhada? Se eu tiver a sorte de ter um instrutor lendo isso, como você classificaria minha resposta?

saulspatz
fonte

Respostas:

9

Primeiro, deixe-me dizer que, se eu estivesse classificando suas perguntas, eu lhe daria uma nota excelente. Essas são as perguntas introdutórias do livro, portanto você ainda não tem todas as ferramentas para refletir sobre os problemas, mas já está demonstrando que sabe que precisa levar em consideração as informações causais para respondê-las.

Agora, quanto à resposta, observe que a pergunta pergunta se você deseja examinar os dados agregados ou segregados. Acontece que nos dois casos você deseja examinar os dados segregados.

P(Y=1|do(T))=SP(Y=1|T,S)P(S)P(Y=1|T)YTS

Se for estranho pensar em escolher um tratamento para si mesmo sem saber o tamanho da pedra, talvez seja mais fácil entender a questão análoga de ter que escolher apenas um tratamento para toda a população (por razões técnicas / orçamentárias que você não pode escolher ambos). Nesse caso, você deseja saber qual deles tem o maior efeito médio de tratamento na população como um todo.

A questão B é um problema semelhante, a dificuldade é um fator de confusão, portanto você precisa da tabela segregada para saber qual médico é melhor, tanto condicional quanto incondicionalmente. Seu argumento sobre o tamanho da amostra é completamente válido; na vida real, você deve sempre considerar a incerteza da amostra - mas observe que isso não muda o fato de que você ainda precisaria das informações dos dados segregados.

Em relação ao seu último comentário,

se as duas falhas ocorreram no início de sua carreira (enquanto ele ainda estava aprendendo) ou mais recentemente (depois que ele começou a beber muito).

Na verdade, toca em um profundo problema de inferência causal, que é a suposição de invariância . Veja o caso em que o médico começou a beber muito agora. Nesse caso, os dados antes e depois desse evento não provêm do mesmo modelo causal - portanto, você realmente precisaria de mais informações e mais suposições causais para fazer inferência nesse caso.

Carlos Cinelli
fonte
2
Obrigado. Suas observações sobre o primeiro problema foram especialmente esclarecedoras.
Saulpatz
3

Eu li Causalidade de Pearl , 2ª ed. (2009), mas não a cartilha a que você se refere aqui. Você parece estar abordando essas questões de estudo com exatamente a mentalidade certa. Você está obtendo seu próprio conhecimento de base para preencher esses cenários com informações causais essenciais . Você também está atacando diretamente o que me parece concepções bastante perversas dos problemas de decisão apresentados, e tentando substituí-los por problemas mais significativos e realistas.

David C. Norris
fonte
2
+1 para a frase "conceitos bastante perversos". É claro que os problemas dos livros didáticos nunca são totalmente realistas, por razões óbvias, mas não estava claro para mim o quão realistas deveriam ser. Eu acho que as coisas ficarão mais claras enquanto eu continuo lendo.
precisa saber é