Diferença entre os degraus dois e três na Escada da Causação

12

No "Livro do Porquê" da Judea Pearl, ele fala sobre o que chama de Escada da Causação, que é essencialmente uma hierarquia composta por diferentes níveis de raciocínio causal. O mais baixo diz respeito aos padrões de associação nos dados observados (por exemplo, correlação, probabilidade condicional etc.), o próximo se concentra na intervenção (o que acontece se alterarmos deliberadamente o processo de geração de dados de alguma maneira pré-especificada?), E o terceiro é contrafactual (o que aconteceria em outro mundo possível se algo tivesse ou não acontecido)?

O que não estou entendendo é como os degraus dois e três diferem. Se fizermos uma pergunta contrafactual, não estamos simplesmente fazendo uma pergunta sobre a intervenção, a fim de negar algum aspecto do mundo observado?

dsaxton
fonte
Isso realmente está no tópico? Pedindo por curiosidade
Firebug
5
@ Firebug é causalidade no tópico? Se você deseja calcular a probabilidade de contrafactuais (como a probabilidade de um medicamento específico ser suficiente para a morte de alguém), você precisa entender isso.
Carlos Cinelli

Respostas:

13

Não há contradição entre o mundo factual e a ação de interesse no nível intervencionista. Por exemplo, fumar até hoje e ser forçado a parar de fumar a partir de amanhã não está em contradição entre si, mesmo que você possa dizer que um "nega" o outro. Mas agora imagine o seguinte cenário. Você conhece Joe, um fumante vitalício que tem câncer de pulmão, e se pergunta: e se Joe não fumasse há trinta anos, ele estaria saudável hoje? Nesse caso, estamos lidando com a mesma pessoa, ao mesmo tempo, imaginando um cenário em que ação e resultado estão em contradição direta com fatos conhecidos.

Assim, a principal diferença de intervenções e contrafatuais é que, enquanto nas intervenções você está perguntando o que acontecerá em média se realizar uma ação, em contrafatuais você está perguntando o que teria acontecido se você tivesse tomado um curso de ação diferente em uma situação específica , desde que você tenha informações sobre o que realmente aconteceu. Observe que, como você já sabe o que aconteceu no mundo real, é necessário atualizar suas informações sobre o passado à luz das evidências que observou.

Esses dois tipos de consultas são matematicamente distintos porque exigem que níveis diferentes de informações sejam respondidos (contrafatuais precisam de mais informações para serem respondidas) e uma linguagem ainda mais elaborada para serem articuladas !.

Com as informações necessárias para responder às perguntas do Rung 3, você pode responder às perguntas do Rung 2, mas não o contrário. Mais precisamente, você não pode responder perguntas contra-factuais apenas com informações de intervenção. Exemplos em que ocorre o choque de intervenções e contrafactuais já foram dados aqui no CV, veja este post e este post . No entanto, por uma questão de exaustividade, incluirei um exemplo aqui também.

O exemplo abaixo pode ser encontrado na causalidade, seção 1.4.4.

x=1x=0y=0y=1P(y|x)=0.5   x,y

P(Y=1|do(X=1))P(Y=1|do(X=0)=0

P(Y0=0|X=1,Y=1)

Esta pergunta não pode ser respondida apenas com os dados de intervenção que você possui. A prova é simples: posso criar dois modelos causais diferentes que terão as mesmas distribuições intervencionistas, mas distribuições contrafactuais diferentes. Os dois são fornecidos abaixo:

insira a descrição da imagem aqui

UP(y,x)

Observe que, no primeiro modelo, ninguém é afetado pelo tratamento, portanto, a porcentagem de pacientes que morreram sob tratamento que teriam se recuperado se não tivessem feito o tratamento é zero.

No entanto, no segundo modelo, todo paciente é afetado pelo tratamento, e temos uma mistura de duas populações nas quais o efeito causal médio acaba sendo zero. Neste exemplo, a quantidade contrafactual agora é de 100% - no Modelo 2, todos os pacientes que morreram sob tratamento teriam se recuperado se não tivessem feito o tratamento.

Portanto, há uma clara distinção entre a linha 2 e a linha 3. Como o exemplo mostra, você não pode responder perguntas contrafactuais apenas com informações e suposições sobre intervenções. Isso fica claro com as três etapas para calcular um contrafactual:

  1. P(u)P(você|e)
  2. do(x))
  3. Y

Não será possível calcular sem algumas informações funcionais sobre o modelo causal ou sem algumas informações sobre variáveis ​​latentes.

Carlos Cinelli
fonte
Resposta interessante! Alguns acompanhamentos: 1) Você diz " Com as informações do Rung 3, você pode responder às perguntas do Rung 2, mas não o contrário ". Mas, no seu exemplo de fumante, não entendo como saber se Joe ficaria saudável se ele nunca tivesse fumado responde à pergunta 'Ele ficaria saudável se parasse amanhã depois de 30 anos fumando'? Eles parecem perguntas distintas, então acho que estou perdendo alguma coisa.
mkt - Restabelece Monica
Além disso, seu exemplo trabalhado subsequente se baseia na distribuição não aleatória de duas variáveis ​​não observadas entre o tratamento e o controle. Mas você descreveu isso como um experimento aleatório - então não é um caso de má randomização? Com a randomização adequada, não vejo como você obtém dois resultados tão diferentes, a menos que esteja perdendo algo básico.
mkt - Restabelece Monica
@mkt do último ao primeiro. A variável não observada é aleatoriamente distribuída entre tratado e controle; você tem exatamente 50% de cada categoria de u nos dois braços. Por informação, entendemos a especificação parcial do modelo necessário para responder a consultas contrafactuais em geral, não a resposta a uma consulta específica. Para responder a consultas contrafactuais, você precisa da estrutura causal + algumas informações funcionais ou informações da distribuição das variáveis ​​latentes.
Carlos Cinelli
0

Aqui está a resposta que Judea Pearl deu no twitter :

Os leitores perguntam: Por que a intervenção (degrau 2) é diferente da contrafactual (degrau 3)? A intervenção não nega alguns aspectos do mundo observado?

Resp. As intervenções mudam, mas não contradizem o mundo observado, porque o mundo antes e depois da intervenção envolve variáveis ​​distintas no tempo. Em contraste, "Se eu estivesse morto" contradiz fatos conhecidos. Para uma discussão recente, consulte esta discussão .

Observação: O grupo #causalinference de Harvard e a estrutura de resultados em potencial de Rubin não distinguem o Rung-2 do Rung-3.

Acredito que esta é uma resistência culturalmente enraizada que será retificada no futuro. Ele decorre da origem de ambas as estruturas na metáfora "como se fosse aleatória", em oposição à metáfora física de "escuta" de #Bookofwhy

Benjamin Crouzier
fonte