Zero distribuição inflada, o que são realmente?

15

Estou lutando para entender zero distribuições infladas. O que eles são? Qual é o objetivo?

Se eu tiver dados com muitos zeros, poderia ajustar uma regressão logística primeiro, calcular a probabilidade de zeros, remover todos os zeros e ajustar uma regressão regular usando minha escolha de distribuição (poisson, por exemplo).

Então alguém me disse: "ei, use uma distribuição inflada zero", mas, olhando para cima, parece não fazer nada diferente do que sugeri acima? Ele possui um parâmetro regular e outro parâmetro para modelar a probabilidade de zero? Apenas faz as duas coisas ao mesmo tempo, não?μp

Calro
fonte
3
Por que você remove todos os zeros? você pode fazer isso juntos, primeiro calcula a probabilidade de 0 e 1 e usa isso como peso para sua distribuição Poisson que é o modelo inflado zero (distribuição). Leia isto, é bastante claro pt.wikipedia.org/wiki/Zero-inflated_model
Deep North

Respostas:

13

ajustar uma regressão logística primeiro, calcular a probabilidade de zeros e, em seguida, eu poderia remover todos os zeros e ajustar uma regressão regular usando minha escolha de distribuição (poisson, por exemplo)

Você está absolutamente correto. Essa é uma maneira de ajustar um modelo inflado a zero (ou, como aponta Achim Zeileis nos comentários, este é estritamente um "modelo de barreira", que pode ser visto como um caso especial de um modelo inflado a zero).

A diferença entre o procedimento que você descreveu e um modelo inflado a zero "tudo em um" é a propagação de erros. Como todos os outros procedimentos de duas etapas nas estatísticas, a incerteza geral de suas previsões na etapa 2 não levará em consideração a incerteza sobre se a previsão deve ser 0 ou não.

Às vezes, este é um mal necessário. Felizmente, não é necessário neste caso. No R, você pode usar pscl::hurdle()ou fitdistrplus::fitdist().

shadowtalker
fonte
você pode explicar isso "a incerteza geral de suas previsões na etapa 2 não levará em consideração a incerteza sobre se a previsão deve ser 0 ou não"? Quando você faz uma Zip Poisson você vai múltipla a probabilidade da primeira parte para a função de verossimilhança do modelo de Poisson, portanto, passo 2 levará em conta a incerteza do 0 ou 1.
norte profundo
1
P(Y=1|X=x)=0,510,51
3
@ssdecontrol Normalmente, isso não é chamado de modelo inflado a zero, mas sim um modelo de obstáculos (por exemplo, pscl::hurdle()). E para obter um ajuste adequado, a distribuição empregada para os dados sem zeros deve ser truncada em zero (ou não levar a zeros em primeiro lugar). Veja minha resposta para mais detalhes.
Achim Zeileis
9

A idéia básica que você descreve é ​​uma abordagem válida e costuma ser chamada de modelo de barreira (ou modelo de duas partes), em vez de modelo inflado a zero .

No entanto, é crucial que o modelo para dados diferentes de zero seja responsável por remover os zeros. Se você ajustar um modelo de Poisson aos dados sem zeros, isso quase certamente produzirá um ajuste ruim, porque a distribuição de Poisson sempre tem uma probabilidade positiva para zero. A alternativa natural é usar uma distribuição de Poisson com truncamento zero, que é a abordagem clássica para a regressão de obstáculos para dados de contagem.

A principal diferença entre os modelos inflados a zero e os modelos de obstáculos é qual probabilidade é modelada na parte binária da regressão. Para modelos de obstáculo, é simplesmente a probabilidade de zero vs. diferente de zero. Nos modelos inflados a zero, é provável que haja um excesso de zero , ou seja, a probabilidade de um zero que não é causado pela distribuição não inflada (por exemplo, Poisson).

Para uma discussão dos modelos de obstáculo e inflação zero para dados de contagem em R, consulte nosso manuscrito publicado no JSS e também enviado como uma vinheta para o psclpacote: http://dx.doi.org/10.18637/jss.v027.i08

Achim Zeileis
fonte
7

O que o ssdecontrol disse está muito correto. Mas eu gostaria de adicionar alguns centavos à discussão.

Acabei de assistir a palestra sobre modelos Zero Inflated para dados de contagem de Richard McElreath no YouTube.

Faz sentido estimar p enquanto controla as variáveis ​​que explicam a taxa do modelo de Poisson puro, especialmente se você considerar que a chance de um zero observado ser originado da distribuição de Poisson não é 100%.

Zero distribuições infladas como modelo multinível

Também faz sentido quando você considera os parâmetros do modelo, uma vez que você acaba com duas variáveis ​​para estimar, pe taxa de Poisson, e duas equações, o caso em que a contagem é zero e o caso em que a contagem é diferente de zero.

Fonte da imagem: Repensar Estatística - Um Curso Bayesiano com Exemplos em R e Stan por Richard McElreath

Editar : erro de digitação

Guilherme Marthe
fonte
As referências aos materiais de aprendizagem são apreciadas ... mas como isso responde à pergunta em questão? Isto parece um comentário postado como uma resposta ...
RTbecard