Várias questões de imputação para regressão múltipla no SPSS

9

Atualmente, estou executando um modelo de regressão múltipla usando dados imputados e tenho algumas perguntas.

Fundo:

Usando o SPSS 18. Meus dados parecem ser MAR. A exclusão listwise de casos me deixa com apenas 92 casos, a imputação múltipla deixa 153 casos para análise. Todas as premissas atendidas - um log variável transformado. 9 IV's 5 - 5 categóricos, 3 escalas, 1 intervalo. Escala DV. Usando o método enter da regressão múltipla padrão.

  • Meu DV é a diferença de pontuação entre uma medida de pré-pontuação e pós-pontuação, essas duas variáveis ​​estão faltando vários casos - devo atribuir valores ausentes para cada uma delas e depois calcular a diferença entre elas para calcular minha DV (como faço para fazer isso) ou posso apenas imputar dados para o meu DV? Qual é a abordagem mais apropriada?
  • Devo executar imputações em dados transformados ou dados não transformados distorcidos?
  • Devo inserir todas as variáveis ​​no processo de imputação, mesmo que não estejam faltando dados, ou devo apenas imputar dados para as variáveis ​​que faltam em mais de 10% dos casos?

Eu executei a regressão nos casos excluídos listwise e os meus IVs representam muito pouca variação no meu DV; posteriormente, executei a regressão em um arquivo completo após imputação múltipla - Os resultados são muito semelhantes, pois meus 9IVs ainda prever apenas aproximadamente 12% da variação no meu DV, no entanto, agora um dos meus IV'S indica que está fazendo uma contribuição significativa (essa é uma variável transformada em log) ...

  • Devo relatar dados originais se houver pouca diferença entre minhas conclusões - ou seja, meus IVs mal prevêem o dv ou relatam os dados completos?
dara
fonte
O que significa "escala" para o SPSS, refere-se a dados ordinais ?
gung - Restabelece Monica
A escala nos formatos SPSS normalmente significa medidas de "intervalo / proporção", consulte o comando VARIABLE LEVEL . Mas isso deixa a pergunta: qual é a distinção entre a escala 3 e a questão de 1 intervalo? Dito isto, essas informações devem ser suficientes para responder à sua pergunta com eficácia.
Andy W
2
O único conselho que eu poderia dar é que prever as pontuações de mudança tende a ser muito mais difícil do que prever os níveis (portanto, não é surpreendente em muitas situações que R^2ocorra uma baixa ). Veja aqui uma boa discussão sobre designs pré-pós . Embora isso ainda não responda totalmente à sua pergunta!
21712 Andy W

Respostas:

2
  1. Se você deve imputar as pontuações pré e pós, ou a diferença, depende de como você analisa a diferença pré e pós. Você deve estar ciente de que existem limitações legítimas às análises das pontuações das diferenças (ver Edwards, 1994, para uma boa revisão) e uma abordagem de regressão na qual você analisa o residual de pós-pontuação depois de controlar as pré-pontuações pode ser melhor. Nesse caso, você gostaria de atribuir pontuações pré e pós, pois essas são as variáveis ​​que estarão no seu modelo analítico. No entanto, se você pretende analisar as pontuações das diferenças, imputá-las, pois é improvável que você queira calcular manualmente as pontuações das diferenças em todos os seus conjuntos de dados imputados. Em outras palavras, quaisquer variáveis ​​que você esteja usando em seu modelo analítico real,
  2. Novamente, eu imputaria a variável transformada, pois é isso que é usado no seu modelo analítico.
  3. A adição de variáveis ​​ao modelo de imputação aumentará as demandas computacionais do processo de imputação, MAS, se você tiver tempo, mais informações serão sempre melhores. Variáveis ​​com dados completos podem ser potencialmente variáveis ​​auxiliares muito úteis para explicar a falta de MAR. Se o uso de todas as suas variáveis ​​resultar em muito tempo / demanda de computação de um modelo de imputação (por exemplo, se você tiver um grande conjunto de dados), crie variáveis ​​fictícias para a falta de cada caso para cada variável e veja quais variáveis ​​completas predizem essas variáveis ​​de falta na logística modelos - inclua essas variáveis ​​de caso completas específicas em seu modelo de imputação.
  4. Eu não relataria as análises originais (ou seja, excluídas em lista). Se o seu mecanismo de falta for o MAR, o MI não apenas aumentará sua potência, mas também fornecerá estimativas mais precisas (Enders, 2010). Assim, o efeito significativo do IM pode não ser significativo com a exclusão em lista porque essa análise é insuficiente, tendenciosa ou ambas.

Referências

Edwards, JR (1994). Análise de regressão como alternativa aos escores de diferença. Journal of Management , 20 , 683-689.

Enders, CK (2010). Análise de dados ausentes aplicada . Nova York, NY: Guilford Press.

jsakaluk
fonte
1

Na minha experiência, a função de imputação do SPSS é fácil de usar, tanto na criação de conjuntos de dados quanto na análise e agrupamento dos conjuntos de dados de imputação resultantes. No entanto, sua facilidade de uso também é sua queda. Se você observar uma função de imputação semelhante no Rsoftware estatístico (veja, por exemplo, o micepacote), verá muito mais opções. Consulte o site da Stef van Buurens para obter uma excelente explicação sobre imputações múltiplas em geral (com ou sem o uso do pacote de mouses).

É muito importante observar que essas opções adicionais não são escolhas de "luxo" apenas para usuários avançados . Alguns são essenciais para obter a devida simpatia , modelos específicos para variáveis ​​ausentes específicas , preditores específicos para variáveis ​​ausentes específicas , diagnóstico de imputação e muito mais, que não estão disponíveis na função de imputação do SPSS.

Quanto às suas perguntas:

  1. a imputação de pontuações anteriores e posteriores e a substituição passiva das diferenças ausentes são apropriadas quando você deseja conservar a relação entre as pontuações anteriores e posteriores e a diferença (conforme respondido por jsakaluk). No seu caso, pode ser assim quando você deseja criar um modelo com a diferença na pontuação pré e pós como variável dependente / resultado e a linha de base (pré-pontuação) como (uma das) variáveis ​​preditoras / independentes.
  2. Qualquer modelo usado para substituir os valores ausentes deve respeitar suas suposições. Isso significa que, para substituir uma variável contínua, você precisa seguir as premissas de um modelo de regressão linear (no caso mais simples). para regressão linear e para a maioria dos outros modelos de regressão, as variáveis ​​preditoras não precisam ser normalmente distribuídas; os resíduos do modelo, no entanto , precisam ser! Alguma transformação pode, portanto, ser necessária se este for o caso.
  3. Veja a resposta de jsakaluk. No entanto, observe que o SPSS usa imputação massiva , o que basicamente significa que todas as variáveis ​​inseridas são usadas para substituir variáveis ​​por casos ausentes. Se você tiver apenas uma variável com falta, isso não é problema. No entanto, se você tiver várias, isso significa que as variáveis ​​com falta também são usadas para concluir as outras variáveis ​​com falta. Isso pode não ser um problema, mas em alguns casos isso cria loops de feedback que influenciam seus valores finais de imputação. É imperativo verificar isso procurando tendências nas iterações da sua imputação, em vez de 'estabilizar' os valores substituídos.
  4. Eu concordo com a resposta de jsakaluk neste. Se você decidir 'desconfiar' de seus dados completos porque suspeita de erros seletivos e resolver ou remediar parcialmente isso usando várias técnicas de imputação (que eu acho que seriam as menos tendenciosas), seus resultados de múltiplas imputações devem ser os principais resultados que você exposição. Lamentavelmente, a experiência mostrou que revisores ou outras pessoas interessadas às vezes também desejam ver análises completas de casos (portanto, mantenha-as à mão).
IWS
fonte