Do ponto de vista estatístico, pode-se inferir causalidade usando escores de propensão com um estudo observacional?

27

Pergunta: Do ponto de vista do estatístico (ou de um profissional), pode-se inferir a causalidade usando escores de propensão com um estudo observacional ( não um experimento )?

Por favor, não queira iniciar uma guerra de chamas ou um debate fanático.

Antecedentes: No nosso programa de doutorado em estatística, apenas abordamos a inferência causal por meio de grupos de trabalho e algumas sessões de tópicos. No entanto, existem alguns pesquisadores muito importantes em outros departamentos (por exemplo, HDFS, Sociologia) que os estão usando ativamente.

Eu já testemunhei um debate bastante acalorado sobre esse assunto. Não é minha intenção começar um aqui. Dito isto, que referências você encontrou? Que pontos de vista você tem? Por exemplo, um argumento que ouvi contra os escores de propensão como uma técnica de inferência causal é que nunca se pode inferir causalidade devido ao viés variável omitido - se você deixar de fora algo importante, interrompe a cadeia causal. Esse é um problema não resolvível?

Isenção de responsabilidade: Esta pergunta pode não ter uma resposta correta - é muito legal clicar em cw, mas pessoalmente estou muito interessada nas respostas e ficaria feliz com algumas boas referências que incluem exemplos do mundo real.

M. Tibbits
fonte

Respostas:

16

No início de um artigo com o objetivo de promover o uso de PSs em epidemiologia, Oakes e Church (1) citaram as alegações de Hernán e Robins sobre o efeito de confusão na epidemiologia (2):

Você pode garantir que os resultados do seu estudo observacional não sejam afetados por confusão não medida? A única resposta que um epidemiologista pode fornecer é 'não'.

Isso não significa apenas que não podemos garantir que os resultados de estudos observacionais sejam imparciais ou inúteis (porque, como o @propofol disse, seus resultados podem ser úteis para projetar ECRs), mas também que os PSs certamente não oferecem uma solução completa para isso. problema, ou pelo menos não produz necessariamente melhores resultados do que outros métodos de correspondência ou multivariados (ver, por exemplo, (10)).

Os escores de propensão (PS) são, por construção, indicadores probabilísticos e não causais . A escolha das covariáveis ​​que entram na função de propensão é um elemento essencial para garantir sua confiabilidade, e sua fraqueza, como já foi dito, se refere principalmente ao não controle de fatores de confusão não observados (o que é bastante provável em estudos retrospectivos ou caso-controle ) . Outros fatores devem ser considerados: (a) a especificação incorreta do modelo impactará as estimativas de efeitos diretos (embora não seja realmente mais do que no caso OLS), (b) pode haver dados ausentes no nível das covariáveis, (c) os PSs não supere os efeitos sinérgicos que sabidamente afetam a interpretação causal (8,9).

Quanto às referências, achei os slides de Roger Newson - causalidade, confusão e propensão - relativamente equilibrados sobre os prós e contras do uso de propensão, com ilustrações de estudos reais. Havia também vários bons artigos discutindo o uso de escores de propensão em estudos observacionais ou epidemiologia ambiental há dois anos em Statistics in Medicine, e eu incluo algumas no final (3-6). Mas eu gosto da revisão de Pearl (7) porque oferece uma perspectiva mais ampla sobre questões de causalidade (os PSs são discutidos nas páginas 117 e 130). Obviamente, você encontrará muitas outras ilustrações analisando a pesquisa aplicada. Gostaria de acrescentar dois artigos recentes de William R Shadish que apareceram no site de Andrew Gelman (11,12). O uso de escores de propensão é discutido, mas os dois trabalhos se concentram mais na inferência causal em estudos observacionais (e em como ele se compara às configurações aleatórias).

Referências

  1. Oakes, JM e Church, TR (2007). Comentário Convidado: Métodos Avançados de Pontuação de Propensão em Epidemiologia . American Journal of Epidemiology , 165 (10), 1119-1121.
  2. Hernan MA e Robins JM (2006). Instrumentos para inferência causal: o sonho de um epidemiologista? Epidemiology , 17, 360-72.
  3. Rubin, D. (2007). O design versus a análise de estudos observacionais para efeitos causais: paralelos com o design de ensaios randomizados . Statistics in Medicine , 26, 20–36.
  4. Shrier, I. (2008). Carta ao editor . Statistics in Medicine , 27, 2740-2741.
  5. Pearl, J. (2009). Comentários sobre o método do escore de propensão . Statistics in Medicine , 28, 1415-1424.
  6. Stuart, EA (2008). Desenvolvimento de recomendações práticas para o uso de escores de propensão: Discussão de 'Uma avaliação crítica da correspondência de escores de propensão na literatura médica entre 1996 e 2003' por Peter Austin . Statistics in Medicine , 27, 2062-2065.
  7. Pearl, J. (2009). Inferência causal nas estatísticas: uma visão geral . Pesquisas estatísticas , 3, 96-146.
  8. Oakes, JM e Johnson, PJ (2006). Escore de propensão correspondente à epidemiologia social . In Methods in Social Epidemiology , JM Oakes e S. Kaufman (Eds.), Pp. 364-386. Jossez-Bass.
  9. Höfler, M (2005). Inferência causal baseada em contrafactuais . Metodologia de Pesquisa Médica BMC , 5, 28.
  10. Winkelmayer, WC e Kurth, T. (2004). Escores de propensão: ajuda ou exagero? Nephrology Dialysis Transplantation , 19 (7), 1671-1673.
  11. Shadish, WR, Clark, MH e Steiner, PM (2008). Experimentos não aleatórios podem gerar respostas precisas? Um experimento randomizado comparando atribuições aleatórias e não aleatórias . JASA , 103 (484), 1334-1356.
  12. Cook, TD, Shadish, WR e Wong, VC (2008). Três condições sob as quais experimentos e estudos observacionais produzem estimativas causais comparáveis: novas descobertas das comparações dentro do estudo . Journal of Policy Analysis and Management , 27 (4), 724-750.
Chl
fonte
11

Os escores de propensão são normalmente usados ​​na literatura correspondente. Os escores de propensão usam covariáveis ​​de pré-tratamento para estimar a probabilidade de receber tratamento. Essencialmente, uma regressão (apenas OLS regular ou logit, probit, etc.) é usada para calcular o escore de propensão com o tratamento, pois seu resultado e as variáveis ​​de pré-tratamento são suas covariáveis. Uma vez obtida uma boa estimativa do escore de propensão, indivíduos com escores de propensão semelhantes, mas com tratamentos diferentes recebidos, são comparados entre si. O efeito do tratamento é a diferença de médias entre esses dois grupos.

Rosenbaum e Rubin (1983) mostram que a combinação de sujeitos tratados e controle usando apenas o escore de propensão é suficiente para remover todo viés na estimativa do efeito do tratamento decorrente das covariáveis ​​observadas no pré-tratamento usadas para construir o escore. Observe que essa prova requer o uso do verdadeiro escore de propensão, em vez de uma estimativa. A vantagem dessa abordagem é transformar um problema de correspondência em várias dimensões (uma para cada covariável de pré-tratamento) em um caso de correspondência univariada - uma grande simplificação.

Rosenbaum, Paul R. e Donald B. Rubin. 1983. " O papel central do escore de propensão em estudos observacionais para efeitos causais ". Biometrika. 70 (1): 41--55.

Charlie
fonte
8

Somente um estudo randomizado prospectivo pode determinar a causalidade. Nos estudos observacionais, sempre haverá a chance de uma covariável não medida ou desconhecida que impossibilite a atribuição de causalidade.

No entanto, ensaios observacionais podem fornecer evidências de uma forte associação entre x e y e, portanto, são úteis para a geração de hipóteses. Essas hipóteses precisam ser confirmadas com um estudo randomizado.

pmgjones
fonte
Eu concordo plenamente com você. Um estudo observacional pode ser bom para descobrir algumas associações que, por sua vez, podem ser testadas usando uma estrutura muito mais rigorosa (ensaio randomizado, como você sugere).
Sympa
Expressão pura. Não posso concordar mais com você com a palavra associação "forte" entre x e y.
Kevin Kang
7

A questão parece envolver duas coisas que realmente devem ser consideradas separadamente. O primeiro é se alguém pode inferir a causalidade a partir de um estudo observacional, e nisso você pode contrastar as visões de, digamos, Pearl (2009), que argumenta que sim, desde que você possa modelar o processo adequadamente, versus a visão @propofol, que irá encontre muitos aliados em disciplinas experimentais e que possam compartilhar alguns dos pensamentos expressos em (um pouco obscuro, mas ainda assim bom) ensaio de Gerber et al (2004). Segundo, assumindo que você acha que a causalidade pode ser inferida a partir de dados observacionais, você pode se perguntar se os métodos de pontuação de propensão são úteis para isso. Os métodos de pontuação de propensão incluem várias estratégias de condicionamento, bem como a ponderação de propensão inversa. Uma boa revisão é dada por Lunceford e Davidian (2004).

Porém, um pouco de rugas: a correspondência e a ponderação do escore de propensão também são usadas na análise de experimentos randomizados quando, por exemplo, há um interesse em calcular "efeitos indiretos" e também quando há problemas de atrito ou abandono potencialmente não aleatório ( nesse caso, o que você se parece com um estudo observacional).

Referências

Gerber A, et al. 2004. "A ilusão de aprender com a pesquisa observacional". Em Shapiro I, et al., Problems and Methods in the Study of Politics , Cambridge University Press.

Lunceford JK, Davidian M. 2004. "Estratificação e ponderação via escore de propensão na estimativa dos efeitos do tratamento causal: um estudo comparativo". Statistics in Medicine 23 (19): 2937-2960.

Pearl J. 2009. Causalidade (2ª Ed.) , Cambridge University Press.

Cyrus S
fonte
É bom que você cite o livro inteiro da Pearl.
chl
0

A sabedoria convencional afirma que apenas ensaios clínicos randomizados (experimentos "reais") podem identificar causalidade.

No entanto, não é tão simples assim.

Uma razão pela qual a randomização pode não ser suficiente é que, em amostras "pequenas", a lei do número grande não é "suficientemente forte" para garantir que todas e todas as diferenças sejam equilibradas. A questão é: o que é "pequeno demais" e quando começa "grande o suficiente"? Saint-Mont (2015) argumenta aqui que "grande o suficiente" pode muito bem começar aos milhares (n> 1000)!

Afinal, o objetivo é equilibrar as diferenças entre os grupos, controlar as diferenças. Portanto, mesmo em experimentos, deve-se tomar muito cuidado para equilibrar as diferenças entre os grupos. De acordo com os cálculos de Saint-Mont (2015), pode muito bem ser que, em amostras menores, pode-se obter melhores vantagens com amostras combinadas (balanceadas manualmente).

Quanto à probabilidade. Obviamente, a probabilidade nunca é capaz de dar uma resposta conclusiva - a menos que a probabilidade seja extrema (zero ou um). No entanto, na ciência, nos encontramos frequentemente confrontados com situações em que somos incapazes de fornecer uma resposta conclusiva, pois as coisas são difíceis. Daí a necessidade de probabilidade. A probabilidade nada mais é do que uma maneira de expressar nossa incerteza em uma declaração. Como tal, é semelhante à lógica; veja Briggs (2016) aqui .

Portanto, a probabilidade nos ajudará, mas não dará respostas conclusivas, sem certeza. Mas é de grande utilidade - expressar incerteza.

Observe também que a causalidade não é primariamente uma questão estatística. Suponha que dois meios diferem "significativamente". Não significa que a variável de agrupamento é a causa da diferença na variável medida? Não (não necessariamente). Não importa qual estatística específica se use - pontuação de propensão, valores de p, fatores de Bayes e assim por diante - esses métodos (praticamente) nunca são suficientes para apoiar reivindicações causais.

Sebastian Sauer
fonte