O desvio escalado, definido como D = 2 * (probabilidade logarítmica do modelo saturado menos probabilidade logarítmica do modelo ajustado), é freqüentemente usado como uma medida de qualidade de ajuste nos modelos GLM. O desvio percentual explicado, definido como [D (modelo nulo) - D (modelo ajustado)] / D (modelo nulo), também é às vezes usado como o analógico GLM para o quadrado R da regressão linear. Além do fato de que as distribuições ZIP e ZINB não fazem parte da família exponencial de distribuições, estou tendo problemas para entender por que o desvio escalonado e o desvio percentual explicado não são usados na modelagem inflada a zero. Alguém pode esclarecer isso ou fornecer referências úteis? Desde já, obrigado!
goodness-of-fit
zero-inflation
deviance
aleanjeo
fonte
fonte
Respostas:
O desvio é um conceito GLM, os modelos ZIP e ZINB não são glms, mas são formulados como misturas finitas de distribuições que são GLMs e, portanto, podem ser facilmente resolvidas pelo algoritmo EM.
Essas notas descrevem a teoria do desvio de forma concisa. Se você ler essas notas, verá a prova de que o modelo saturado da regressão de Poisson tem probabilidade de log
que resulta das estimativas de plug-in .yEu= λ^Eu
Vou prosseguir agora com a probabilidade do ZIP porque a matemática é mais simples, e resultados semelhantes são válidos para o ZINB. Infelizmente para o ZIP, não existe um relacionamento simples como no Poisson. A ésima probabilidade de log de observações éEu
o não é observado, portanto, para resolver isso, é necessário derivadas parciais em e , definir as equações para 0 e depois resolver para e . A dificuldade aqui são os valores , eles podem entrar em um ou em um e não é possível sem observar qual colocar as observações . No entanto, se soubéssemos o valor , não precisaríamos de um modelo ZIP, porque não teríamos dados ausentes. Os dados observados correspondem à probabilidade de "dados completos" no formalismo EM. X & Phi; X & Phi; y i = 0 X & Phi; Z i y i = 0 Z iZEu λ ϕ λ ϕ yEu= 0 λ^ ϕ^ ZEu yEu= 0 ZEu
Uma abordagem que pode ser razoável é trabalhar com a expectativa em da probabilidade completa do log de dados, que remove o e substitui por uma expectativa. parte do que o algoritmo EM calcula (a etapa E) com as atualizações mais recentes. Não conheço nenhuma literatura que tenha estudado essa abordagem do desvio .E ( ℓ i ( φ , λ ) ) Z i de e x p e c t e dZEu E ( ℓEu( ϕ , λ ) ) ZEu e x p e c t e d
Além disso, essa pergunta foi feita primeiro, então eu respondi a esta postagem. No entanto, há outra pergunta sobre o mesmo tópico com um bom comentário de Gordon Smyth aqui: desvio para o modelo de poisson composto inflado a zero, dados contínuos (R) onde ele mencionou a mesma resposta (esta é uma elaboração desse comentário que eu gostaria digamos) mais eles mencionaram nos comentários para o outro post um artigo que você pode querer ler. (aviso de isenção, não li o artigo mencionado)
fonte