Como posso agrupar valores-p com inicialização através de conjuntos de dados imputados multiplicados?

12

Estou preocupado com o problema de que eu gostaria de inicializar o valor-p para uma estimativa de partir de dados de multiplicação imputada (MI), mas não está claro para mim como combinar os valores-p entre os conjuntos de MI.θ

Para conjuntos de dados de MI, a abordagem padrão para obter a variação total das estimativas usa as regras de Rubin. Veja aqui uma revisão do conjunto de conjuntos de dados MI. A raiz quadrada da variância total serve como uma estimativa de erro padrão de . No entanto, para alguns estimadores, a variância total não possui forma fechada conhecida ou a distribuição da amostra não é normal. A estatística θ / s e ( θ ) pode então não ser distribuída t, nem mesmo assintoticamente.θθ/se(θ)

Portanto, no caso completo dos dados, uma opção alternativa é inicializar a estatística para encontrar variância, valor-p e intervalo de confiança, mesmo se a distribuição da amostra não for normal e sua forma fechada desconhecida. No caso do MI, existem duas opções:

  • Agrupe a variação de inicialização nos conjuntos de dados MI
  • Agrupe o valor-p ou os limites de confiança nos conjuntos de dados MI

A primeira opção usaria novamente as regras do Rubin. No entanto, acredito que isso é problemático, se tiver uma distribuição amostral não normal. Nesta situação (ou mais geralmente, em todas as situações), o valor de p inicializado pode ser usado diretamente. No entanto, no caso do MI, isso levaria a vários valores de p ou intervalos de confiança, que precisam ser agrupados entre os conjuntos de dados do MI.θ

Portanto, minha pergunta é: como devo agrupar vários valores p inicializados (ou intervalos de confiança) em conjuntos de dados multiplicados por imputação?

Gostaria de receber sugestões sobre como proceder, obrigado.

tomka
fonte
Talvez útil: Dados ausentes, imputação e o bootstrap (Efron 1992) Statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly
@DLDahly Hmm, eu não estou familiarizado com esse documento, mas a ideia parece ser inicializar primeiro e depois executar várias imputações. O OP parece estar inicializando estimativas de conjuntos de dados de MI.
Tchakravarty
@fgnu De fato, o procedimento padrão para obter a variação total de uma estimativa pelo bootstrap seria inicializar a variação em cada conjunto de dados do MI e aplicar as regras de Rubin para agrupar a variação do bootstrap nos conjuntos de dados do MI.
Tomka

Respostas:

6

Eu acho que as duas opções resultam na resposta correta. Em geral, eu preferiria o método 1, pois preserva toda a distribuição.

k vezes em cada um dos mSoluções MI. Em seguida, basta misturar om distribuições de inicialização para obter sua densidade final, agora consistindo em k×mamostras que incluem a variação entre imputações. Em seguida, trate-o como uma amostra de bootstrap convencional para obter intervalos de confiança. Use o bootstrap bayesiano para amostras pequenas. Não conheço nenhum trabalho de simulação que investiga esse procedimento, e esse é realmente um problema aberto a ser investigado.

Para o método 2, use o procedimento Licht-Rubin. Consulte Como obter valores-p agrupados em testes realizados em vários conjuntos de dados imputados?

Stef van Buuren
fonte
+1 - Se o objetivo é entender a variabilidade das estimativas entre os conjuntos de dados de MI, eu inicializaria dentro de cada conjunto de dados de MI e examinaria as distribuições totais e específicas de MI do parâmetro.
DL Dahly
@ Stef-van-Buuren Parece que DL Dahly sugere que é equivalente a agrupar a variação iniciada em conjuntos de MI. Você ainda prefere o seu método um (acrescente todos os conjuntos de dados inicializados) a essa abordagem "indireta"?
Tomka
@tomka. Eu certamente faria o mesmo que DL Dahly e estudaria as distribuições internas e entre as imputações. Para integrar os dois tipos de distribuição, precisamos combiná-los de alguma forma. Minha sugestão é simplesmente misturá-los.
Stef van Buuren
6

Esta não é uma literatura com a qual estou familiarizado, mas uma maneira de abordar isso pode ser ignorar o fato de que esses são valores-p com inicialização e examinar a literatura sobre a combinação de valores-p em conjuntos de dados multiplicados por imputação.

Nesse caso, Li, Meng, Raghunathan e Rubin (1991) se aplicam. O procedimento é baseado em estatísticas de cada um dos conjuntos de dados imputados, ponderados usando uma medida da perda de informações devido à imputação. Eles se deparam com questões relacionadas à distribuição conjunta das estatísticas entre imputações e fazem algumas suposições simplificadoras.

De interesse relacionado é Meng (1994) .

Atualizar

Um procedimento para combinar valores-p em conjuntos de dados multiplicados é descrito na dissertação de Christine Licht, cap. 4 . A idéia, que ela atribui a Don Rubin, é essencialmente transformar os valores de p a serem normalmente distribuídos, que podem ser combinados entre os conjuntos de dados de MI, usando as regras padrão para a combinação de estatísticas z.

tchakravarty
fonte
Se eu entendo o Li et al. funcionar corretamente, aplica-se às estatísticas obtidas de cada conjunto de MI. Por exemplo, se você obtiver o Pearson Chi² em cada conjunto, suas regras poderão ser aplicadas para combiná-lo para inferência entre os conjuntos. Também pode ser realizado um teste de Wald, por exemplo. Porém, no caso de uma inicialização, você não obtém uma estatística que agruparia (mas apenas um valor-p). Portanto, não tenho certeza se há algo em Li et al. que poderia ser aplicado ao bootstrapped p.
Tomka
1
@tomka Atualizei minha resposta.
Tchakravarty