Eu posso pensar em pelo menos um exemplo ingênuo. Suponha que eu queira estudar a relação entre X e Z. Eu também suspeito que Y influencia Z, então eu controlo Y. No entanto, como se sabe, sem o meu conhecimento, X causa Y e Y causa Z. Portanto, controlando para Y, "encobrimento" a relação entre X e Z, pois X é independente de Z, dado Y.
Agora, no exemplo anterior, pode ser que as relações que eu deveria estudar sejam aquelas entre X e Y, e Y e Z. No entanto, se eu soubesse dessas coisas a priori, não estaria fazendo ciência em o primeiro lugar. O estudo que eu fiz agora sugere que não há relação entre X e Z, o que não é o caso ... X e Z estão relacionados.
Isso é ilustrado no seguinte diagrama de dependência. No cenário certo, Z depende de X e Y e X e Y são independentes. Controlamos corretamente Y para determinar o relacionamento entre X e Z. No cenário esquerdo, Z depende de Y, que depende de X. X e Z são independentes, dado Y, portanto, o relacionamento entre X e Z é "encoberto" controlando Y.
Minha pergunta é basicamente "Quando é apropriado controlar a variável Y e quando não?" ... Pode ser difícil ou impossível investigar completamente a relação entre X e Y, mas, por exemplo, controlar Y em um determinado nível é uma opção. Como decidimos antes de conduzir nosso estudo, e quais são as armadilhas comuns de controlar muito ou pouco?
Citações apreciadas.
Respostas:
O condicionamento (isto é, o ajuste) das probabilidades de algum resultado, dado um preditor de terceiros variáveis, é amplamente praticado, mas, como você corretamente aponta, pode realmente introduzir viés na estimativa resultante como uma representação dos efeitos causais . Isso pode até acontecer com definições "clássicas" de um potencial causador de confusão causal, porque tanto o fator de confusão em si quanto o preditor de interesse podem ter mais fatores de confusão causais a montante. No DAG abaixo, por exemplo, é um confusão clássico do efeito causal de E em D , porque (1) causa e está, portanto, associado a E , e (2) está associado a D, pois está associado aL E D E D , que está associada com D . No entanto, condicionar ou estratificar P ( D | E ) em L (um "colisor") produzirá estimativas causais enviesadas do efeito de E em D porque L é confundido com D pela variável nãomedida U 2 , e L é confundido com E pela variável não medida U 1 .U2 D P(D|E) L E D L D U2 L E U1
A compreensão de quais variáveis condicionar ou estratificar a análise de uma pessoa para fornecer uma estimativa causal imparcial requer uma consideração cuidadosa dos possíveis DAGs usando os critérios de identificação de efeitos causais - nenhuma causa comum que não seja bloqueada pelos caminhos de backdoor - descritos por Pearl, Robins e outros . Não há atalhos. Aprenda padrões comuns de confusão. Aprenda padrões comuns de viés de seleção. Prática.
Referências
Greenland, S., Pearl, J. e Robins, JM (1999). Diagramas causais para pesquisa epidemiológica . Epidemiology , 10 (1): 37–48.
Hernán, MA e Robins, JM (2018). Inferência Causal . Chapman & Hall / CRC, Boca Raton, Flórida
Maldonado, G. e Greenland, S. (2002). Estimando efeitos causais . International Journal of Epidemiology , 31 (2): 422–438.
Pearl, J. (2000). Causalidade: Modelos, Raciocínio e Inferência . Cambridge University Press.
fonte
Acredito que a resposta rápida de uma frase para sua pergunta,
é o "critério da porta dos fundos".
O Modelo Causal Estrutural de Judea Pearl pode dizer definitivamente quais variáveis são suficientes (e quando é necessário) para condicionamento, para inferir o impacto causal de uma variável sobre outra. Nomeadamente, isso é respondido usando o critério da porta traseira, descrito na página 19 deste artigo de revisão de Pearl.
A principal ressalva é que requer que você conheça a relação causal entre as variáveis (na forma de setas direcionais em um gráfico). Não há maneira de contornar isso. É aqui que a dificuldade e a possível subjetividade podem entrar em jogo. O modelo causal estrutural de Pearl apenas permite que você saiba como responder às perguntas certas, dado um modelo causal (ou seja, gráfico direcionado), que conjunto de modelos causais é possível com base na distribuição de dados ou como procurar estrutura causal executando o experimento correto. Ele não mostra como encontrar a estrutura causal correta, dada apenas a distribuição dos dados. De fato, alega que isso é impossível sem o uso de conhecimento / intuição externa sobre o significado das variáveis.
Os critérios da porta traseira podem ser definidos da seguinte maneira:
Para encontrar o impacto causal de em Y , um conjunto de nós variáveis S é suficiente para ser condicionado desde que satisfaça os dois critérios a seguir:X Y, S
1) Nenhum elemento em é descendente de XS X
2) bloqueia todos os caminhos de "porta traseira" entre X e YS X Y
Aqui, um caminho de "back-door" é simplesmente um caminho de setas que começam em e terminam com uma seta apontando para X . (A direção que todas as outras setas apontam não é importante.) E "bloquear" é, por si só, um critério que possui um significado específico, que é dado na página 11 do link acima. Este é o mesmo critério que você leria ao aprender sobre "separação D". Pessoalmente, descobri que o capítulo 8 do Reconhecimento de padrões e aprendizado de máquina de Bishop descreve o conceito de bloqueio na separação D muito melhor do que a fonte de Pearl que liguei acima. Mas é assim:Y X.
Um conjunto de nós, bloqueia um caminho entre X e Y se atender a pelo menos um dos seguintes critérios:S, X Y
1) Um dos nós no caminho, que também está em emite pelo menos uma seta no caminho (ou seja, a seta está apontando para fora do nó)S,
2) Um nó que não está em nem um ancestral de um nó em S tem duas setas no caminho "colidindo" em direção a ele (ou seja, encontrando-o frente a frente)S S
Este é um critério ou , diferentemente do critério geral da porta traseira, que é um critério e .
Para ser claro sobre o critério da porta traseira, o que ele diz é que, para um determinado modelo causal, ao condicionar uma variável suficiente, é possível aprender o impacto causal da distribuição de probabilidade dos dados. (Como sabemos, a distribuição conjunta por si só não é suficiente para encontrar o comportamento causal, porque várias estruturas causais podem ser responsáveis pela mesma distribuição. É por isso que o modelo causal também é necessário.) A distribuição pode ser estimada usando estatísticas / métodos de aprendizado de máquina nos dados observacionais. Então, desde que você saiba Como a estrutura causal permite o condicionamento de uma variável (ou conjunto de variáveis), sua estimativa do impacto causal de uma variável sobre outra é tão boa quanto a estimativa da distribuição dos dados, que você obtém por meio de métodos estatísticos.
Aqui está o que descobrimos quando aplicamos o critério de porta traseira aos seus dois diagramas:
Em nenhum dos casos, existe um caminho de back-door de a X . Portanto, é verdade que Y bloqueia "todos" os caminhos da porta dos fundos, porque não há nenhum. No entanto, no diagrama da esquerda, Y é um descendente direto de X , enquanto no diagrama da direita não é. Portanto, Y segue o critério da porta traseira no diagrama à direita, mas não à esquerda. Estes são resultados surpreendentes.Z X. Y Y X, Y
O que é surpreendente, no entanto, é que no diagrama direita, enquanto ele é a imagem completa, você não precisa condição de para obter o impacto causal cheia de X em Z . (Dito de outra forma, o conjunto nulo atende aos critérios da porta traseira e, portanto, é suficiente para condicionar.) Intuitivamente, isso é verdade porque o valor de X não está associado ao valor de Y; portanto, para dados suficientes, você pode simplesmente calcular a média sobre o valor os valores de Y para marginalizar o efeito de Y em Z . Uma objeção a esse ponto pode ser que os dados são limitados, para que você não tenha uma distribuição representativa deY X Z X Y Y Y Z. Valores Y Mas lembre-se de que o critério da porta dos fundos supõe que você tenha a distribuição de probabilidade dos dados. Nesse caso, você pode analiticamente marginalizar Y . A marginalização de um conjunto de dados finitos é apenas uma estimativa. Além disso, observe que éaltamenteimprovável que esta seja a imagem completa. Existem fatores externos provável que o impacto X . Se esses fatores também estão associados a Y de alguma forma, mais trabalho deve ser feito para verificar se Y deve ser condicionado ou se é suficiente. Se você desenhar outra seta apontando de Y a X , Y se tornará necessário para controlar.Y Y. X. Y Y Y X Y
Esses são, é claro, exemplos muito simples em que a intuição é suficiente para saber quando pode ou não pode ser controlado. Mas aqui estão mais alguns exemplos em que não é óbvio olhando o diagrama, e você pode usar os critérios da porta traseira. Para o seguinte diagrama que perguntar se ele é suficiente para controlar para Y quando a determinação do impacto causal de X em Z .Y Y X Z.
A primeira coisa a notar é que, em ambos os casos, não é um descendente de X . Então, passa esse critério. A próxima coisa a notar é que, em ambos os casos, há vários caminhos de backdoor de Z a X . Dois no diagrama esquerdo e três no direito.Y X. Z X.
No diagrama esquerda os caminhos secretos são e Z ← W → B ← Um → X .Z←Y→X Z←W→B←A→X. bloqueia o primeiro caminho porque é um nó emissor de seta diretamente no caminho. Y tambémbloqueia o segundo caminho porque ele não é nem B , nem é um descendente de B , que é o único nó de colisão de setas no caminho. Portanto, Y é um conjunto suficiente para condicionamento. (Note-se, ao contrário de noseudiagrama direito, o conjunto nulo não é suficiente para o condicionamento, porque ele não bloqueia o caminho Z ← Y → X ).Y Y B, B, Y Z←Y→X
No diagrama direita os caminhos secretos são o mesmo duas como no esquerdo, mais o caminhoZ←W→B→Y→X. fazbloquear este caminho, porque é uma seta emissores nó no caminho. Ele também bloqueia o caminho Z ← Y → X pelo mesmo motivo que o diagrama esquerdo. No entanto, elenãobloquear o caminho Z ← W → B ← Um → X , porque é uma descendente directa do nó colisor B . Portanto,nãoésuficiente para condicionar.Y Z←Y→X Z←W→B←A→X, B.
É bastante pouco intuitivo ver por que é suficiente para condicionar no diagrama esquerdo, devido às variáveis exógenas A e W que afetam X e Z, respectivamente. No entanto, suponha que não houve B . Nesse caso, não haveria relação espúria entre X e Z devido a essas variáveis exógenas, portanto elas não são motivo de preocupação. A existência de B , no entanto, coloca isso em questão. Se B tem permissão para assumir qualquer valor que naturalmente leva dado A e WY A W X Z B. X Z B, B A W , não seria um problema porque não tem impacto nas variáveis importantes ou nas variáveis exógenas que as determinam. No entanto, se (ou qualquer um de seus descendentes) é controlado , ele na verdade torna A e W dependentes, o que cria o relacionamento espúrio entre X e Z que não queremos. Como mencionado na fonte vinculada, este é um exemplo do paradoxo de Berkson , onde uma observação de uma variável causada por duas fontes independentes torna essas fontes dependentes (por exemplo, o resultado de dois lançamentos independentes de moedas se torna dependente da observação do número total de cabeças viraram).B A W X Z
Como mencionei antes, o uso do critério da porta traseira exige que você conheça o modelo causal (isto é, o diagrama "correto" de setas entre as variáveis). Mas o Modelo Causal Estrutural, na minha opinião, também oferece a melhor e mais formal maneira de procurar um modelo ou saber quando a pesquisa é fútil. Ele também tem o maravilhoso efeito colateral de tornar obsoletos termos como "confusão", "mediação" e "espúrio" (todos os quais me confundem). Apenas me mostre a foto e eu direi quais círculos devem ser controlados.
fonte
O seguinte pode ou não ser adequado ao seu caso: se
X
for um tratamento, você poderá solucionar seu problema usando a correspondência de propensão, na qual você ainda manteria a variávelY
ao fazer a correspondência. Em outras palavras, você equilibra as covariáveis (Y
é uma dessas covariáveis) que prevêem receber o tratamentoX
.Observe como não há referência à variável de resultado
Z
acima. Você também pode verificar o nível de equilíbrio de suas observações (gerando uma tabela de equilíbrio antes e depois da correspondência), o que pode fornecer informações sobre quantoX
é determinado porY
.fonte