Imputação múltipla para variáveis ​​de resultado

17

Eu tenho um conjunto de dados sobre ensaios agrícolas. Minha variável de resposta é uma taxa de resposta: log (tratamento / controle). Estou interessado no que medeia a diferença, por isso estou executando meta-regressões de ER (sem ponderação, porque parece bastante claro que o tamanho do efeito não está correlacionado com a variação de estimativas).

Cada estudo relata o rendimento de grãos, o rendimento de biomassa ou ambos. Não posso imputar a produção de grãos a partir de estudos que relatam somente a produção de biomassa, porque nem todas as plantas estudadas foram úteis para grãos (a cana-de-açúcar está incluída, por exemplo). Mas cada planta que produzia grãos também tinha biomassa.

Para covariáveis ​​ausentes, tenho usado a imputação de regressão iterativa (seguindo o capítulo do livro-texto de Andrew Gelman). Parece dar resultados razoáveis, e todo o processo é geralmente intuitivo. Basicamente, prevejo os valores ausentes e os uso de valores preditos para prever valores ausentes, e percorro cada variável até que cada variável converja aproximadamente (na distribuição).

Existe alguma razão para não poder usar o mesmo processo para atribuir dados de resultados ausentes? Provavelmente, posso formar um modelo de imputação relativamente informativo para a taxa de resposta de biomassa, dada a taxa de resposta de grãos, o tipo de cultura e outras covariáveis ​​que possuo. Eu então calculava a média dos coeficientes e VCVs e adicionava a correção do IM conforme a prática padrão.

Mas o que esses coeficientes medem quando os próprios resultados são imputados? A interpretação dos coeficientes é diferente do IM padrão para covariáveis? Pensando nisso, não consigo me convencer de que isso não funcione, mas não tenho muita certeza. Pensamentos e sugestões para o material de leitura são bem-vindos.

generic_user
fonte
Não tenho a resposta, mas uma pergunta e duas anotações: 1) log de uma proporção é, obviamente, a diferença de logs. Portanto, seu DV é equivalente a log (tratamento) - log (controle). 2) Qual livro de Gelman você estava vendo?
Peter Flom - Restabelece Monica
Sim, o DV é equivalente ao log (tratamento) -log (controle). Estou baseando a imputação de regressão iterativa no capítulo (não técnico) com dados ausentes que Gelman postou on-line: stat.columbia.edu/~gelman/arm/missing.pdf
generic_user
Foi-me dito que imputar o resultado leva a um erro de Monte Carlo. Tentará encontrar um link mais tarde. Não esqueça que você precisa incluir o resultado nos modelos de imputação para as covariáveis.
DL Dahly

Respostas:

19

Como você suspeitava, é válido usar várias imputações para a medida do resultado. Há casos em que isso é útil, mas também pode ser arriscado. Considero a situação em que todas as covariáveis ​​estão completas e o resultado é incompleto.

Se o modelo de imputação estiver correto, obteremos inferências válidas nas estimativas de parâmetros a partir dos dados imputados. As inferências obtidas apenas dos casos completos podem estar erradas se a falta estiver relacionada ao resultado após condicionamento no preditor, ou seja, no MNAR. Portanto, a imputação é útil se soubermos (ou suspeitarmos) que os dados são MNAR.

Sob o MAR, geralmente não há benefícios para imputar o resultado e, para um baixo número de imputações, os resultados podem até ser um pouco mais variáveis ​​devido ao erro de simulação. Há uma exceção importante nisso. Se tivermos acesso a uma variável completa auxiliar que não faça parte do modelo e que esteja altamente correlacionada com o resultado, a imputação poderá ser consideravelmente mais eficiente que a análise de caso completa, resultando em estimativas mais precisas e intervalos de confiança mais curtos. Um cenário comum em que isso ocorre é se temos uma medida de resultado barata para todos e uma medida cara para um subconjunto.

Em muitos conjuntos de dados, os dados ausentes também ocorrem nas variáveis ​​independentes. Nesses casos, precisamos imputar a variável de resultado, pois sua versão imputada é necessária para imputar as variáveis ​​independentes.

Stef van Buuren
fonte
Obrigado, isso é consistente com minha intuição, mas você poderia compartilhar um link para um estudo publicado bem feito que imputa variáveis ​​dependentes? Uma das principais razões pelas quais eu quero imputar as medidas de resultado é aumentar o tamanho da amostra (de cerca de 250 para cerca de 450), a fim de facilitar os termos de interação do produto do tensor semi-paramétrico nos GAMs com requisitos de df muito altos (antes que eles cheguem) penalizado, baixando edf). MAR é razoável no meu caso.
generic_user
1
Tem sido amplamente praticado pela ANOVA para obter projetos balanceados. Veja a introdução de RJA Little, Regression with X's ausentes, JASA 1992. Suponho que você saiba que aumentar o tamanho da amostra dessa maneira não ajuda a obter estimativas mais precisas. Para o caso de variáveis auxiliares, leia a seção de super-eficiência na DB Rubin, imputação múltipla após 18+ anos, JASA 1996.
Stef van Buuren
1
"De acordo com a MAR, geralmente não há benefícios para imputar o resultado" - eu já vi isso mencionado antes, mas não tenho nenhuma referência a isso - você pode fornecer um, por favor?
Robert Long
Acho que você pode citar Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 para isso, mas observe as exceções.
Stef van Buuren
1
@StefvanBuuren - resposta útil para a maior parte, mas meu entendimento é que "se sabemos (ou suspeitamos) que os dados são MNAR", a imputação não pode resolver nossos problemas da mesma forma que a análise de caso completa. Parece estar na categoria "sem almoço grátis".
Rolando2 26/05
2

A imputação de dados de resultados é muito comum e leva à inferência correta ao contabilizar o erro aleatório.

Parece que o que você está fazendo é uma imputação única, imputando os valores ausentes com uma média condicional em uma análise de caso completa. O que você deve fazer é imputação múltipla que, para covariáveis ​​contínuas, é responsável pelo erro aleatório que você teria observado se você medisse retroativamente esses valores ausentes. O algoritmo EM funciona de maneira semelhante, calculando a média de uma série de possíveis resultados observados.

A imputação única fornece uma estimativa correta dos parâmetros do modelo quando não há relação de variância média, mas fornece estimativas de erro padrão que são direcionadas para zero, aumentando as taxas de erro do tipo I. Isso ocorre porque você ficou "otimista" com a extensão do erro que teria observado se tivesse medido esses fatores.

A imputação múltipla é um processo de gerar iterativamente um erro aditivo para a imputação média condicional, de modo que, através de 7 ou 8 imputações simuladas, você pode combinar modelos e seus erros para obter estimativas corretas dos parâmetros do modelo e seus erros padrão. Se você tem covariáveis ​​e resultados ausentes em conjunto, existe um software no SAS, STATA e R chamado imputação múltipla por meio de equações em cadeia em onde são gerados conjuntos de dados "completos" (conjuntos de dados com valores imputados que são tratados como fixos e não aleatórios). parâmetros estimados a partir de cada conjunto de dados completo e suas estimativas de parâmetros e erros padrão combinados usando uma formação matemática correta (detalhes no artigo de Van Buuren).

A pequena diferença entre o processo no MI e o processo que você descreveu é que você não considerou o fato de que estimar a distribuição condicional do resultado usando dados imputados dependerá de qual ordem você imputa certos fatores. Você deve ter estimado a distribuição condicional do condicionamento de covariáveis ​​ausentes no resultado do IM, caso contrário, obterá estimativas de parâmetros enviesadas.

AdamO
fonte
Obrigado. Primeiro, estou programando tudo do zero no R, não usando o MICE ou o MI. Segundo, estou imputando empates de uma distribuição preditiva (modelada), não apenas expectativas condicionais. É disso que você está falando no segundo parágrafo? Caso contrário, agradeceria esclarecimentos. Além disso, a que jornal de Royston você se refere? Para o seu último ponto - você está dizendo algo mais complicado do que "você deve colocar sua variável dependente no modelo de imputação"? Nesse caso, eu gostaria muito de receber esclarecimentos.
generic_user
Por fim - não estou fazendo uma única imputação. Estou ajustando 30 modelos com dados preenchidos e usando a fórmula V_b = W + (1 + 1 / m) B da Rubin.
generic_user
O artigo de Royston estava com hiperlink. Na verdade, pretendia vincular o Van Buuren que implementou o programa em R e inclui detalhes computacionais: doc.utwente.nl/78938 MICE / MI é um processo. Se você está imputando com base em um código criado em casa, deve elaborar melhor os detalhes. Média condicional = valores previstos, se o modelo estiver correto (ou aproximadamente, uma suposição necessária). É mais complicado do que "adicionar o resultado", é que você está imputando vários padrões ausentes (pelo menos 3, faltando covariável / resultado / ausente em conjunto).
AdamO 13/01
Se você estiver imputando o valor previsto 30 vezes, deverá obter os mesmos resultados 30 vezes. Como você está estimando o erro?
AdamO 13/01
fEut,Eump