Correspondência de pontuação de propensão após imputação múltipla

34

Refiro-me a este artigo: Hayes JR, Groner JI. "Usando várias pontuações de imputação e propensão para testar o efeito de assentos de carro e uso de cinto de segurança na gravidade de lesões de dados de registro de trauma" J Pediatr Surg. Maio de 2008; 43 (5): 924-7.

Neste estudo, imputação múltipla foi realizada para obter 15 conjuntos de dados completos. Os escores de propensão foram então calculados para cada conjunto de dados. Em seguida, para cada unidade de observação, um registro foi escolhido aleatoriamente em um dos 15 conjuntos de dados concluídos (incluindo o escore de propensão relacionado), criando assim um único conjunto de dados final para o qual foi analisado por correspondência de escore de propensão.

Minhas perguntas são: Esta é uma maneira válida de realizar a correspondência de pontuação de propensão após imputação múltipla? Existem maneiras alternativas de fazer isso?

Por contexto: No meu novo projeto, pretendo comparar os efeitos de 2 métodos de tratamento usando a correspondência de propensão. Há dados ausentes e pretendo usar o MICEpacote em R para atribuir valores ausentes, twangfazer a correspondência de pontuação de propensão e depois lme4analisar os dados correspondentes.

Update1:

Eu encontrei este artigo que tem uma abordagem diferente: Mitra, Robin e Reiter, Jerome P. (2011) Escore de propensão correspondente a covariáveis ​​ausentes através de imputação múltipla sequencial e iterada [Working Paper]

Neste artigo, os autores calculam as pontuações de propensão em todos os conjuntos de dados imputados e depois os agrupam por média, o que está no espírito da imputação múltipla usando as regras de Rubin para uma estimativa de pontos - mas é realmente aplicável a uma pontuação de propensão?

Seria muito bom se alguém no CV pudesse fornecer uma resposta com comentários sobre essas 2 abordagens diferentes e / ou quaisquer outras ....

Joe King
fonte

Respostas:

20

A primeira coisa a dizer é que, para mim, o método 1 (amostragem) parece não ter muito mérito - descarta os benefícios da imputação múltipla e reduz a imputação única para cada observação, como mencionado por Stas. Não vejo nenhuma vantagem em usá-lo.

Há uma excelente discussão sobre as questões que envolvem a análise do escore de propensão com dados ausentes em Hill (2004): Hill, J. "Reduzindo o viés na estimativa do efeito do tratamento em estudos observacionais que sofrem de falta de dados" ISERP Working Papers, 2004. É possível fazer o download em aqui .

O artigo considera duas abordagens para o uso de imputação múltipla (e também outros métodos para lidar com dados ausentes) e pontuações de propensão:

  • média das pontuações de propensão após imputação múltipla, seguida de inferência causal (método 2 no seu post acima)

  • inferência causal usando cada conjunto de escores de propensão a partir das múltiplas imputações seguidas pela média das estimativas causais.

Além disso, o artigo considera se o resultado deve ser incluído como um preditor no modelo de imputação.

Hill afirma que, embora a imputação múltipla seja preferida a outros métodos de lidar com dados ausentes, em geral, não há a priorirazão para preferir uma dessas técnicas sobre a outra. No entanto, pode haver razões para preferir calcular a média das pontuações de propensão, principalmente ao usar certos algoritmos de correspondência. Hill fez um estudo de simulação no mesmo artigo e descobriu que a média das pontuações de propensão antes da inferência causal, quando a inclusão do resultado no modelo de imputação produzia os melhores resultados em termos de erro quadrático médio e a média das pontuações primeiro, mas sem o resultado no modelo de imputação, produziu os melhores resultados em termos de viés médio (diferença absoluta entre o efeito estimado e verdadeiro do tratamento). Geralmente, é aconselhável incluir o resultado no modelo de imputação (por exemplo, veja aqui ).

Portanto, parece que seu método 2 é o caminho a seguir.

Robert Long
fonte
11
Eu entendo o método número 2, mas estou sem saber como implementá-lo em R. Alguém tem alguma referência para me apontar?
sam
2
O código R para ambos os métodos é fornecido na vinheta do cobaltpacote intitulado "Usando cobalto com dados complicados". Você pode acessá-lo aqui: CRAN.R-project.org/package=cobalt
Noah
13

Pode haver um choque de dois paradigmas. A imputação múltipla é uma solução bayesiana fortemente baseada em modelo: o conceito de imputação adequada afirma essencialmente que você precisa amostrar a partir da distribuição posterior bem definida dos dados, caso contrário, você está ferrado. A correspondência do escore de propensão, por outro lado, é um procedimento semi-paramétrico: depois de calcular o seu escore de propensão (não importa como, você poderia ter usado uma estimativa de densidade de kernel, não necessariamente um modelo de logit), você pode fazer o resto simplesmente considerando as diferenças entre as observações tratadas e as não tratadas com o mesmo escore de propensão, o que é meio não-paramétrico agora, já que não existe um modelo que controla outras covariáveis. Eu não'Abadie e Imbens (2008) discutiram que torna impossível realmente acertar os erros padrão em algumas situações correspondentes. Eu daria mais confiança às abordagens mais suaves, como a ponderação pela propensão inversa. Minha referência favorita sobre isso é "Econometria na maior parte inofensiva" , com o subtítulo "Um companheiro empirista", e destinada a economistas, mas acho que este livro deve ser uma leitura obrigatória para outros cientistas sociais, a maioria dos bioestatísticos e estatísticos não-bio, bem como que eles sabem como outras disciplinas abordam a análise de dados.

De qualquer forma, usar apenas uma das 15 linhas de dados completas simuladas por observação é equivalente a uma única imputação. Como resultado, você perde eficiência em comparação com todos os 15 conjuntos de dados concluídos e não pode estimar os erros padrão corretamente. Parece um procedimento deficiente para mim, de qualquer ângulo.

É claro que, felizmente, varremos para debaixo do tapete a suposição de que tanto o modelo de imputação múltipla quanto o modelo de propensão estão corretos no sentido de termos todas as variáveis ​​corretas nas formas funcionais corretas. Há pouca maneira de verificar isso (embora eu fique feliz em saber o contrário sobre as medidas de diagnóstico para esses dois métodos).

StasK
fonte
(+1) Em particular , não me sinto bem com as descontinuidades introduzidas pela implementação literal da correspondência (encontre o controle com o valor mais próximo possível da pontuação de propensão e ignore o resto) . A pontuação de propensão sempre me pareceu um procedimento bastante difícil.
cardeal
@ cardinal, veja atualização.
Stask
Na verdade, eu tenho visto mais críticas ao IPTW do que à correspondência por outros métodos (precisarei ler). Consulte Regressões de ponderação por escores de propensão ( Freedman & Berk, 2008 ) e, para um exemplo aplicado, veja Bjerk, 2009 . Não sei bem por que você recomenda a Econometrics Harmless em resposta aqui, mas é uma boa recomendação para qualquer pessoa interessada em estudos observacionais.
Andy W
@ Andy, a peça de Freedman & Berk parece lidar com uma situação muito mais simples, quando você pode modelar tudo em uma regressão logística. Meu entendimento é que métodos como o PSM são aplicados em situações muito mais confusas quando você tem muito mais covariáveis ​​e não confia no modelo o suficiente para assumir que ele está especificado corretamente. Eles perceberam que a situação era favorável para ponderação, mas acho que foi favorável para o modelo em comparação com outros métodos possíveis.
StasK 14/09/12
2
Como seus dados não são iid, o grande teorema da máxima verossimilhança sobre a igualdade do Hessiano inverso e o produto externo do gradiente não é mais válido, e nenhum deles é uma estimativa consistente das variações. É necessário usar o estimador de variação de sanduíche, também conhecido como estimador de linearização nas estatísticas da pesquisa, também conhecido como estimador robusto de White em econometria.
Stask
10

Eu realmente não posso falar com os aspectos teóricos da pergunta, mas darei minha experiência usando modelos PS / IPTW e imputação múltipla.

  1. Eu nunca ouvi falar de alguém usando conjuntos de dados imputados multiplicados e amostragem aleatória para criar um único conjunto de dados. Isso não significa necessariamente que está errado, mas é uma abordagem estranha de usar. O conjunto de dados também não é grande o suficiente para que você precise ser criativo para executar modelos de 3 a 5 em vez de apenas um para economizar tempo e computação.
  2. A regra de Rubin e o método de agrupamento são uma ferramenta bastante geral. Dado que o resultado agrupado e multiplicado por imputação pode ser calculado usando apenas a variação e as estimativas, não há motivo para que ele não possa ser usado em seu projeto - criando os dados imputados, executando a análise em cada conjunto e, em seguida, agrupando. É o que eu fiz, é o que eu vi, e, a menos que você tenha uma justificativa específica para não fazê-lo, não vejo realmente uma razão para usar algo mais exótico - especialmente se você não entender o que é continuando com o método.
Fomite
fonte
+1 Esta é uma pergunta difícil de fornecer uma boa resposta, pois parece ser um artigo altamente especializado. Mas, além de alegar perder a recompensa em uma pergunta semelhante anterior, o OP adicionou uma pergunta pedindo soluções que foram migradas para a meta. Fiz comentários semelhantes aos seus na minha resposta lá. Eu sou particularmente duvidoso em relação à amostra do conjunto de dados multiplicado imputado.
Michael R. Chernick 14/09/12
Obrigado ! Você tem alguma referência sobre onde o método 2 foi usado?
Joe King
@JoeKing Infelizmente, não em cima da minha cabeça.
fomite