Atualmente, estou lutando para encontrar o modelo certo para dados de contagem difícil (variável dependente). Eu tentei vários modelos diferentes (modelos de efeitos mistos são necessários para o meu tipo de dados) como lmer
e lme4
(com uma transformação de log), bem como modelos de efeitos mistos lineares generalizados com várias famílias, como gaussiana ou binomial negativa.
No entanto, não tenho certeza de como diagnosticar corretamente os ajustes resultantes. Encontrei muitas opiniões diferentes sobre esse tópico na Web. Penso que o diagnóstico de regressão linear (mista) é bastante direto. Você pode analisar os resíduos (normalidade) e estudar a heterocedasticidade plotando valores ajustados em comparação com os resíduos.
No entanto, como você faz isso corretamente para a versão generalizada? Vamos nos concentrar em uma regressão binomial negativa (mista) por enquanto. Eu já vi declarações bastante opostas sobre os resíduos aqui:
Ao verificar os resíduos quanto à normalidade em modelos lineares generalizados , é indicado na primeira resposta que os resíduos simples não são normalmente distribuídos para um GLM; Eu acho que isso está claro. No entanto, salienta-se que os resíduos de Pearson e de desvio também não devem ser normais. No entanto, a segunda resposta afirma que os resíduos de desvio devem ser normalmente distribuídos (combinados com uma referência).
Entretanto, os resíduos de desvio que devem ser normalmente distribuídos são sugeridos na documentação para ? Glm.diag.plots (do
boot
pacote R ).Em este post , o autor estudou primeiro normalidade do que eu assumo são resíduos de Pearson para um modelo de regressão de efeitos mistos NB. Como esperado (na minha opinião sincera), os resíduos não se mostraram normais e o autor assumiu que este modelo era um ajuste inadequado. No entanto, conforme declarado nos comentários, os resíduos devem ser distribuídos de acordo com uma distribuição binomial negativa. Na minha opinião, isso se aproxima mais da verdade, pois os resíduos do GLM podem ter outras distribuições além da normal. Isso está correto? Como verificar aqui coisas como heterocedasticidade?
O último ponto (plotagem de resíduos contra quantis da distribuição estimada) é enfatizado em Ben & Yohai (2004) . Atualmente, este parece o caminho a seguir para mim.
Em poucas palavras: como você estuda adequadamente os ajustes de modelo de modelos de regressão linear generalizada (mista) especificamente com foco em resíduos?
glm.diag.plots
diz que é para jackknifed residual desvio (Eu suspeito que essa distinção é importante). Além disso, eu acho que você tem dados de contagem ; você pode querer se concentrar nesse fato. Por exemplo, as contagens devem (em algum sentido) ser heterocedásticas. Gráficos de diagnóstico para regressão de contagem devem ser úteis para você (embora não aborde o aspecto dos efeitos mistos).Respostas:
Essa resposta não se baseia no meu conhecimento, mas cita o que Bolker et al. (2009) escreveram em um artigo influente na revista Trends in Ecology and Evolution . Como o artigo não é de acesso aberto (embora a pesquisa no Google Scholar possa ser bem-sucedida, pensei em citar trechos importantes que podem ser úteis para abordar partes das perguntas. Então, novamente, não foi o que descobri, mas acho que representa a melhor informação condensada sobre GLMMs (incluindo diagnósticos) por aí, em um estilo de escrita muito direto e fácil de entender.Se, por qualquer meio, essa resposta não for adequada por qualquer motivo, eu simplesmente a excluirei. útil no que diz respeito a perguntas relacionadas ao diagnóstico são destacadas emnegrito .
Page 127:
Página 129, Caixa 1:
Page 133, Caixa 4:
Os gráficos de resíduos devem ser usados para avaliar a super-dispersão e as variações transformadas devem ser homogêneas entre as categorias. Em nenhum lugar do artigo foi mencionado que os resíduos devam ser normalmente distribuídos.
Penso que a razão pela qual existem declarações contrastantes reflete que os GLMMs (página 127-128) ...
E aqui estão alguns exemplos completos usando GLMMs, incluindo diagnósticos.
Sei que essa resposta é mais como um comentário e deve ser tratada como tal. Mas a seção de comentários não me permite adicionar um comentário tão longo. Além disso, como acredito que este artigo é valioso para esta discussão (mas infelizmente por trás de um muro de pagamentos), pensei que seria útil citar passagens importantes aqui.
Trabalhos citados:
[15] - GP Quinn, MJ Keough (2002): Projeto Experimental e Análise de Dados para Biólogos, Cambridge University Press.
[16] - MJ Crawley (2002): Computação Estatística: Uma Introdução à Análise de Dados Utilizando S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Modelos de Efeitos Mistos em S e S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): informações condicionais de Akaike para modelos de efeitos mistos. Biometrika, 92, pp. 351–370.
[50] - A. Gelman, J. Hill (2006): Análise de Dados Utilizando Modelos de Regressão e Multinível / Hierárquicos, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Uma cartilha de estatísticas ecológicas, Sinauer Associates.
[65] - FJ Harrell (2001): Estratégias de Modelagem de Regressão, Springer.
[66] - JK Lindsey (1997): Aplicando Modelos Lineares Generalizados, Springer.
[67] - W. Venables, BD Ripley (2002): Estatística Moderna Aplicada com S, Springer.
fonte
Esta é uma pergunta antiga, mas achei que seria útil acrescentar que a opção 4 sugerida pelo OP está agora disponível no pacote DHARMa R (disponível no CRAN, veja aqui ).
O pacote torna as verificações residuais visuais sugeridas pela resposta aceita muito mais confiáveis / fáceis.
Na descrição do pacote:
fonte