A lógica da imputação múltipla (MI) é imputar os valores ausentes não uma vez, mas várias (normalmente M = 5) vezes, resultando em M conjuntos de dados concluídos. Os conjuntos de dados completos M são então analisados com métodos de dados completos nos quais as estimativas M e seus erros padrão são combinados usando as fórmulas de Rubin para obter a estimativa "geral" e seu erro padrão.
Ótimo até agora, mas não sei como aplicar esta receita quando se trata de componentes de variação de um modelo de efeitos mistos. A distribuição amostral de um componente de variância é assimétrica - portanto, o intervalo de confiança correspondente não pode ser fornecido na forma típica "estimativa ± 1,96 * se (estimativa)". Por esse motivo, os pacotes R lme4 e nlme nem fornecem os erros padrão dos componentes de variação, mas apenas fornecem intervalos de confiança.
Portanto, podemos executar o MI em um conjunto de dados e, em seguida, obter intervalos de confiança M por componente de variação depois de ajustar o mesmo modelo de efeito misto nos conjuntos de dados M concluídos. A questão é como combinar esses intervalos M em um intervalo de confiança "geral".
Eu acho que isso deveria ser possível - os autores de um artigo (yucel & demirtas (2010) Impacto de efeitos aleatórios não normais na inferência por IM) parecem ter feito isso, mas eles não explicam exatamente como.
Qualquer dica seria muito grato!
Cheers, Rok
Respostas:
Esta é uma grande pergunta! Não tenho certeza se essa é uma resposta completa, no entanto, deixo cair essas poucas linhas para o caso de ajudar.
Parece que Yucel e Demirtas (2010) se referem a um artigo mais antigo publicado no JCGS, Estratégias computacionais para modelos lineares multivariados de efeitos mistos com valores ausentes , que usa uma abordagem híbrida de pontuação EM / Fisher para produzir estimativas baseadas em probabilidade dos VCs . Foi implementado no pacote R mlmmm . Não sei, no entanto, se produz ICs.
Caso contrário, eu definitivamente verificaria o programa WinBUGS , que é amplamente usado em modelos multiníveis, incluindo aqueles com dados ausentes. Eu me lembro que só funcionará se o seu MV estiver na variável de resposta, não nas covariáveis, porque geralmente precisamos especificar as distribuições condicionais completas (se o MV estiver presente nas variáveis independentes, isso significa que devemos dar um os Xs ausentes, e isso será considerado como um parâmetro a ser estimado pelo WinBUGS ...). Parece aplicar-se a R também, se eu me referir ao seguinte segmento em r-sig-mixed, dados ausentes no lme, lmer, PROC MIXED . Além disso, pode valer a pena examinar o software MLwiN .
fonte
Comentário repetido acima:
Não tenho certeza de que exista uma solução analítica adequada para esse problema. Analisei alguma literatura adicional, mas esse problema é elegantemente ignorado em todos os lugares. Também notei que Yucel e Demirtas (no artigo que mencionei, página 798) escrevem:
Parece que eles usaram algum tipo de atalho para estimar a SE do componente de variância (o que é, obviamente, inapropriado, pois o IC é assimétrico) e depois aplicaram a fórmula clássica.
fonte
Isenção de responsabilidade: essa ideia pode ser tola e não vou fingir entender as implicações teóricas do que estou propondo.
" Sugestão " : por que você simplesmente não atribui 100 conjuntos de dados (eu sei que você normalmente realiza 5), executa o lme4 ou nmle, obtém os intervalos de confiança (você possui 100 deles) e depois:
Usando uma pequena largura de intervalo (por exemplo, faixa / 1000 ou algo assim), teste a faixa de valores possíveis de cada parâmetro e inclua apenas os pequenos intervalos que aparecem em pelo menos 95 dos 100 ICs. Você teria uma "média" de Monte Carlo dos seus intervalos de confiança.
Tenho certeza de que há problemas (ou talvez problemas teóricos) nessa abordagem. Por exemplo, você pode acabar com um conjunto de intervalos separados . Isso pode ou não ser uma coisa ruim, dependendo do seu campo. Observe que isso só é possível se você tiver pelo menos dois intervalos de confiança completamente sobrepostos , separados por uma região com menos de 95% de cobertura.
Você também pode considerar algo mais próximo do tratamento bayesiano de dados ausentes para obter uma região credível posterior que certamente seria mais bem formada e mais teoricamente suportada do que minha sugestão ad-hoc.
fonte