Eu tenho um conjunto de dados sobre ensaios agrícolas. Minha variável de resposta é uma taxa de resposta: log (tratamento / controle). Estou interessado no que medeia a diferença, por isso estou executando meta-regressões de ER (sem ponderação, porque parece bastante claro que o tamanho do efeito não está correlacionado com a variação de estimativas).
Cada estudo relata o rendimento de grãos, o rendimento de biomassa ou ambos. Não posso imputar a produção de grãos a partir de estudos que relatam somente a produção de biomassa, porque nem todas as plantas estudadas foram úteis para grãos (a cana-de-açúcar está incluída, por exemplo). Mas cada planta que produzia grãos também tinha biomassa.
Para covariáveis ausentes, tenho usado a imputação de regressão iterativa (seguindo o capítulo do livro-texto de Andrew Gelman). Parece dar resultados razoáveis, e todo o processo é geralmente intuitivo. Basicamente, prevejo os valores ausentes e os uso de valores preditos para prever valores ausentes, e percorro cada variável até que cada variável converja aproximadamente (na distribuição).
Existe alguma razão para não poder usar o mesmo processo para atribuir dados de resultados ausentes? Provavelmente, posso formar um modelo de imputação relativamente informativo para a taxa de resposta de biomassa, dada a taxa de resposta de grãos, o tipo de cultura e outras covariáveis que possuo. Eu então calculava a média dos coeficientes e VCVs e adicionava a correção do IM conforme a prática padrão.
Mas o que esses coeficientes medem quando os próprios resultados são imputados? A interpretação dos coeficientes é diferente do IM padrão para covariáveis? Pensando nisso, não consigo me convencer de que isso não funcione, mas não tenho muita certeza. Pensamentos e sugestões para o material de leitura são bem-vindos.
fonte
Respostas:
Como você suspeitava, é válido usar várias imputações para a medida do resultado. Há casos em que isso é útil, mas também pode ser arriscado. Considero a situação em que todas as covariáveis estão completas e o resultado é incompleto.
Se o modelo de imputação estiver correto, obteremos inferências válidas nas estimativas de parâmetros a partir dos dados imputados. As inferências obtidas apenas dos casos completos podem estar erradas se a falta estiver relacionada ao resultado após condicionamento no preditor, ou seja, no MNAR. Portanto, a imputação é útil se soubermos (ou suspeitarmos) que os dados são MNAR.
Sob o MAR, geralmente não há benefícios para imputar o resultado e, para um baixo número de imputações, os resultados podem até ser um pouco mais variáveis devido ao erro de simulação. Há uma exceção importante nisso. Se tivermos acesso a uma variável completa auxiliar que não faça parte do modelo e que esteja altamente correlacionada com o resultado, a imputação poderá ser consideravelmente mais eficiente que a análise de caso completa, resultando em estimativas mais precisas e intervalos de confiança mais curtos. Um cenário comum em que isso ocorre é se temos uma medida de resultado barata para todos e uma medida cara para um subconjunto.
Em muitos conjuntos de dados, os dados ausentes também ocorrem nas variáveis independentes. Nesses casos, precisamos imputar a variável de resultado, pois sua versão imputada é necessária para imputar as variáveis independentes.
fonte
A imputação de dados de resultados é muito comum e leva à inferência correta ao contabilizar o erro aleatório.
Parece que o que você está fazendo é uma imputação única, imputando os valores ausentes com uma média condicional em uma análise de caso completa. O que você deve fazer é imputação múltipla que, para covariáveis contínuas, é responsável pelo erro aleatório que você teria observado se você medisse retroativamente esses valores ausentes. O algoritmo EM funciona de maneira semelhante, calculando a média de uma série de possíveis resultados observados.
A imputação única fornece uma estimativa correta dos parâmetros do modelo quando não há relação de variância média, mas fornece estimativas de erro padrão que são direcionadas para zero, aumentando as taxas de erro do tipo I. Isso ocorre porque você ficou "otimista" com a extensão do erro que teria observado se tivesse medido esses fatores.
A imputação múltipla é um processo de gerar iterativamente um erro aditivo para a imputação média condicional, de modo que, através de 7 ou 8 imputações simuladas, você pode combinar modelos e seus erros para obter estimativas corretas dos parâmetros do modelo e seus erros padrão. Se você tem covariáveis e resultados ausentes em conjunto, existe um software no SAS, STATA e R chamado imputação múltipla por meio de equações em cadeia em onde são gerados conjuntos de dados "completos" (conjuntos de dados com valores imputados que são tratados como fixos e não aleatórios). parâmetros estimados a partir de cada conjunto de dados completo e suas estimativas de parâmetros e erros padrão combinados usando uma formação matemática correta (detalhes no artigo de Van Buuren).
A pequena diferença entre o processo no MI e o processo que você descreveu é que você não considerou o fato de que estimar a distribuição condicional do resultado usando dados imputados dependerá de qual ordem você imputa certos fatores. Você deve ter estimado a distribuição condicional do condicionamento de covariáveis ausentes no resultado do IM, caso contrário, obterá estimativas de parâmetros enviesadas.
fonte