Estou lutando para entender zero distribuições infladas. O que eles são? Qual é o objetivo?
Se eu tiver dados com muitos zeros, poderia ajustar uma regressão logística primeiro, calcular a probabilidade de zeros, remover todos os zeros e ajustar uma regressão regular usando minha escolha de distribuição (poisson, por exemplo).
Então alguém me disse: "ei, use uma distribuição inflada zero", mas, olhando para cima, parece não fazer nada diferente do que sugeri acima? Ele possui um parâmetro regular e outro parâmetro para modelar a probabilidade de zero? Apenas faz as duas coisas ao mesmo tempo, não?
zero-inflation
Calro
fonte
fonte
Respostas:
Você está absolutamente correto. Essa é uma maneira de ajustar um modelo inflado a zero (ou, como aponta Achim Zeileis nos comentários, este é estritamente um "modelo de barreira", que pode ser visto como um caso especial de um modelo inflado a zero).
A diferença entre o procedimento que você descreveu e um modelo inflado a zero "tudo em um" é a propagação de erros. Como todos os outros procedimentos de duas etapas nas estatísticas, a incerteza geral de suas previsões na etapa 2 não levará em consideração a incerteza sobre se a previsão deve ser 0 ou não.
Às vezes, este é um mal necessário. Felizmente, não é necessário neste caso. No R, você pode usar
pscl::hurdle()
oufitdistrplus::fitdist()
.fonte
pscl::hurdle()
). E para obter um ajuste adequado, a distribuição empregada para os dados sem zeros deve ser truncada em zero (ou não levar a zeros em primeiro lugar). Veja minha resposta para mais detalhes.A idéia básica que você descreve é uma abordagem válida e costuma ser chamada de modelo de barreira (ou modelo de duas partes), em vez de modelo inflado a zero .
No entanto, é crucial que o modelo para dados diferentes de zero seja responsável por remover os zeros. Se você ajustar um modelo de Poisson aos dados sem zeros, isso quase certamente produzirá um ajuste ruim, porque a distribuição de Poisson sempre tem uma probabilidade positiva para zero. A alternativa natural é usar uma distribuição de Poisson com truncamento zero, que é a abordagem clássica para a regressão de obstáculos para dados de contagem.
A principal diferença entre os modelos inflados a zero e os modelos de obstáculos é qual probabilidade é modelada na parte binária da regressão. Para modelos de obstáculo, é simplesmente a probabilidade de zero vs. diferente de zero. Nos modelos inflados a zero, é provável que haja um excesso de zero , ou seja, a probabilidade de um zero que não é causado pela distribuição não inflada (por exemplo, Poisson).
Para uma discussão dos modelos de obstáculo e inflação zero para dados de contagem em R, consulte nosso manuscrito publicado no JSS e também enviado como uma vinheta para o
pscl
pacote: http://dx.doi.org/10.18637/jss.v027.i08fonte
O que o ssdecontrol disse está muito correto. Mas eu gostaria de adicionar alguns centavos à discussão.
Acabei de assistir a palestra sobre modelos Zero Inflated para dados de contagem de Richard McElreath no YouTube.
Faz sentido estimar p enquanto controla as variáveis que explicam a taxa do modelo de Poisson puro, especialmente se você considerar que a chance de um zero observado ser originado da distribuição de Poisson não é 100%.
Também faz sentido quando você considera os parâmetros do modelo, uma vez que você acaba com duas variáveis para estimar, pe taxa de Poisson, e duas equações, o caso em que a contagem é zero e o caso em que a contagem é diferente de zero.
Fonte da imagem: Repensar Estatística - Um Curso Bayesiano com Exemplos em R e Stan por Richard McElreath
Editar : erro de digitação
fonte