Espero reunir os resultados de um conjunto bastante básico de análises realizadas em dados multiplicados por imputação (por exemplo, regressão múltipla, ANOVA). A imputação múltipla e as análises foram concluídas no SPSS, mas o SPSS não fornece resultados agrupados para algumas estatísticas, incluindo o valor F, matriz de covariância, R-quadrado etc.
Fiz algumas tentativas para resolver esse problema, aventurando-me no R ou testando macros disponíveis e não resolvi o problema com êxito (por exemplo, com problemas ao agrupar as estatísticas para mais de 5 imputações no Rato, por exemplo).
Neste ponto, eu gostaria de tentar computá-las manualmente, aplicando a regra de Rubin, usando a saída que o SPSS gera. No entanto, não tenho certeza de como derivar a variação dentro da imputação ( ) com base na saída gerada pelo SPSS.
Eu realmente aprecio uma instrução detalhada sobre isso.
fonte
Respostas:
As regras de Rubin podem ser aplicadas apenas aos parâmetros após uma distribuição normal. Para parâmetros com uma distribuição F ou Chi Square, é necessário um conjunto diferente de fórmulas:
Para executar uma ANOVA em vários conjuntos de dados imputados, você pode usar os miceadds do pacote R ( pdf ;
miceadds::mi.anova
).Atualização 1
Aqui está um exemplo completo:
Exporte seus dados do SPSS para R. No Spss, salve seu conjunto de dados como .csv
Leia no seu conjunto de dados:
Vamos supor que a é sua variável dependente e que você tem dois fatoresreading
Agora vamos convertê-los em fatores:
Converta seu conjunto de dados em um objeto mids, onde assumimos que a primeira variável contém o número de imputação (Imputation_ no SPSS):
Agora você pode executar uma ANOVA:
Atualização 2 Esta é uma resposta ao seu segundo comentário:
O que você descreve aqui é um problema relacionado com a importação / exportação de dados entre SPSS e R. Você poderia tentar importar o
.sav
arquivo diretamente para R e há um monte de pacotes dedicados para isso:foreign
,rio
,gdata
,Hmisc
, etc. Eu prefiro o csv-way , mas isso é uma questão de gosto e / ou depende da natureza do seu problema. Talvez você também deva verificar alguns tutoriais no youtube ou outras fontes na internet.Atualização 3 Esta é uma resposta ao seu primeiro comentário:
Sim, você pode fazer sua análise no SPSS e agrupar os valores F
miceadds
(observe que este exemplo é retirado damiceadds::micombine.F
página de ajuda):fonte
$<-.data.frame
*tmp*
Você anotou corretamente o estimador agrupado:
Onde representa os resultados analíticos do ésimo conjunto de dados imputados. Normalmente, os resultados analíticos têm uma distribuição aproximada normal da qual extraímos inferência ou criamos limites de confiança. Isso é feito principalmente usando o valor médio ( ) e seu erro padrão. Testes-T, regressões lineares, regressões logísticas e basicamente a maioria das análises podem ser adequadamente resumidos em termos desse valor e seu erro padrão .Ui i Ui Ui se(Ui)
As Regras de Rubin usam a lei da variação total para anotar a variação como a soma de uma variação entre e dentro da imputação:
O primeiro termo é a variação interna tal que que é a variação do resultado da análise do ésimo conjunto de dados completo ou imputado. O último termo é a variação entre imputações: . Eu nunca compreendi bem a correção de DF aqui, mas essa é basicamente a abordagem aceita.E[var(U¯|Ui)=1m∑mi=1Vi Vi i var(E[U¯|Ui])=M+1M−1∑mi=1(Ui−U¯)2
De qualquer forma, como o número recomendado de imputações é pequeno (Rubin sugere apenas 5), normalmente é possível calcular esse número manualmente, ajustando cada análise. Um exemplo manual está listado abaixo:
Fornece a seguinte saída:
Portanto, a variação interna é a média das variações da estimativa pontual específica da imputação: 3,8 (média da segunda coluna). A variação entre é a variação de 0,35 da primeira coluna). Usando a correção DF obtemos a variação 4.23. Isso concorda com o
pool
comando dado nomice
pacote.que mostra o SE = 2,057 para o coeficiente do modelo (Variância = SE ** 2 = 4,23).
Não vejo como o aumento do número de conjuntos de dados imputados cria um problema específico. Se você não pode fornecer um exemplo do erro, não sei como ser mais útil. Mas a combinação manual certamente acomodará uma variedade de estratégias de modelagem.
Este artigo discute outras maneiras pelas quais a lei da variação total pode derivar outras estimativas da variação da estimativa combinada. Em particular, os autores apontam (corretamente) que a suposição necessária para as Regras de Rubin não é a normalidade das estimativas pontuais, mas algo chamado de simpatia. Na normalidade do WRT, a maioria das estimativas pontuais provenientes de modelos de regressão tem convergência rápida sob o teorema do limite central, e o bootstrap pode mostrar isso.
fonte
pool(fit)