Obrigado pela pergunta interessante!
Diferença: Uma limitação dos modelos de contagem padrão é que os zeros e os não-zeros (positivos) são assumidos como provenientes do mesmo processo de geração de dados. Nos modelos de obstáculos , esses dois processos não são restritos a serem os mesmos. A idéia básica é que uma probabilidade de Bernoulli governe o resultado binário de se uma variável de contagem tem uma realização zero ou positiva. Se a realização for positiva, o obstáculo será ultrapassado e a distribuição condicional dos positivos será governada por um modelo de dados de contagem truncada no zero. Com modelos inflados a zero, a variável de resposta é modelada como uma mistura de uma distribuição de Bernoulli (ou a chame de massa pontual em zero) e uma distribuição de Poisson (ou qualquer outra distribuição de contagem suportada em números inteiros não negativos). Para mais detalhes e fórmulas, consulte, por exemplo, Gurmu e Trivedi (2011) e Dalrymple, Hudson e Ford (2003).
Exemplo: Os modelos de obstáculos podem ser motivados por processos sequenciais de tomada de decisão enfrentados por indivíduos. Você primeiro decide se precisa comprar algo e depois decide a quantidade desse item (que deve ser positivo). Quando você tem permissão para (ou pode potencialmente) comprar nada após a sua decisão de comprar algo, é um exemplo de uma situação em que o modelo inflado a zero é apropriado. Os zeros podem vir de duas fontes: a) nenhuma decisão de compra; b) queria comprar, mas acabou comprando nada (por exemplo, fora de estoque).
Beta: o modelo de obstáculo é um caso especial do modelo de duas partes descrito no capítulo 16 de Frees (2011). Lá, veremos que, para modelos de duas partes, a quantidade de assistência médica utilizada pode ser uma variável contínua e uma variável de contagem. Então, o que foi chamado de certa forma confusa de "distribuição beta inflada a zero" na literatura pertence, de fato, à classe de distribuições e modelos de duas partes (tão comuns na ciência atuarial), o que é consistente com a definição acima de um modelo de barreira . Este excelente livro discutiu modelos inflados a zero na seção 12.4.1 e modelos de obstáculos na seção 12.4.2, com fórmulas e exemplos de aplicações atuariais.
História: os modelos de Poisson inflados a zero (ZIP) sem covariáveis têm uma longa história (ver, por exemplo, Johnson e Kotz, 1969). A forma geral de modelos de regressão ZIP incorporando covariáveis é devida a Lambert (1992). Os modelos de obstáculo foram propostos pela primeira vez por um estatístico canadense Cragg (1971) e posteriormente desenvolvidos por Mullahy (1986). Você também pode considerar Croston (1972), onde contagens geométricas positivas são usadas juntamente com o processo de Bernoulli para descrever um processo de valor inteiro dominado por zeros.
R: Finalmente, se você usar R, há o pacote pscl para "Classes e Métodos para R desenvolvidos no Laboratório Computacional de Ciência Política", de Simon Jackman, contendo as funções hurdle () e zeroinfl () de Achim Zeileis.
As seguintes referências foram consultadas para produzir o acima:
- Gurmu, S. & Trivedi, PK Excesso de Zeros em Modelos de Contagem para Viagens Recreativas Journal of Business & Economic Statistics, 1996, 14, 469-477
- Johnson, N., Kotz, S., Distribuições em estatística: Distribuições discretas. 1969, Houghton MiZin, Boston
- Lambert, D., Regressão de Poisson inflada a zero com aplicação a defeitos de fabricação. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Alguns modelos estatísticos para variáveis dependentes limitadas com aplicação à demanda por bens duráveis Econometrica, 1971, 39, 829-844
- Mullahy, J. Especificação e teste de alguns modelos de dados de contagem modificados Journal of Econometrics, 1986, 33, 341-365
- Frees, modelagem de regressão EW com aplicações atuariais e financeiras Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL & Ford, RPK Finite Mixture, modelos de Poisson e Hurdle inflados a zero com aplicação à SIDS Computational Statistics & Data Analysis, 2003, 41, 491-504
- Croston, JD Forecasting e controle de estoque para demandas intermitentes Operational Research Quarterly, 1972, 23, 289-303
Os modelos de barreira assumem que existe apenas um processo pelo qual um zero pode ser produzido, enquanto os modelos inflados a zero assumem que existem 2 processos diferentes que podem produzir um zero.
Os modelos de obstáculos assumem 2 tipos de sujeitos: (1) aqueles que nunca experimentam o resultado e (2) aqueles que sempre experimentam o resultado pelo menos uma vez. Modelos inflados a zero conceituam sujeitos como (1) aqueles que nunca experimentam o resultado e (2) aqueles que podem experimentá-lo, mas nem sempre.
Em termos simples: os modelos inflado a zero e obstáculo são descritos em duas partes.
A segunda parte é a parte de contagem, que ocorre quando o sistema está "ligado". É aqui que os modelos com inflado zero e obstáculos diferem. Em modelos inflados com zero, as contagens ainda podem ser zero. Nos modelos de obstáculos, eles devem ser diferentes de zero. Para esta parte, os modelos inflados a zero usam uma distribuição de probabilidade discreta "usual", enquanto os modelos de obstáculos usam uma função de distribuição discreta de probabilidade discreta a zero.
Exemplo de modelo de obstáculo: Um fabricante de automóveis deseja comparar dois programas de controle de qualidade para seus automóveis. Ele será comparado com base no número de reclamações de garantia apresentadas. Para cada programa, um conjunto de clientes selecionados aleatoriamente é seguido por 1 ano e o número de reivindicações de garantia que eles registram é contado. As probabilidades de inflação para cada um dos dois programas são comparadas. O estado "desligado" é "registrado zero reivindicações", enquanto o estado "ligado" é "registrado pelo menos uma reivindicação".
Exemplo de um modelo inflado a zero: No mesmo estudo acima, os pesquisadores descobriram que alguns reparos nos automóveis foram consertados sem a apresentação de uma reivindicação de garantia. Dessa maneira, os zeros são uma mistura da ausência de problemas de controle de qualidade e da presença de problemas de controle de qualidade que não envolviam reivindicações de garantia. O estado "desligado" significa "zero reivindicações arquivadas", enquanto o estado "ligado" significa "arquivou pelo menos uma reivindicação OU teve reparos corrigidos sem registrar uma reivindicação".
Veja aqui um estudo no qual os dois tipos de modelos foram aplicados ao mesmo conjunto de dados.
fonte
e num modelo obstáculo ~ 0 com probabilidade e ~ truncado de Poisson ( ) com a distribuição de probabilidade , e:yi π yi λ 1−π
fonte
Com relação aos modelos de obstáculos, aqui está uma citação de Avanços em modelagem matemática e estatística (Arnold, Balakrishnan, Sarabia e Mínguez, 2008):
Quanto aos modelos inflados a zero, a Wikipedia diz :
De Arnold e colegas (2008), vejo que um modelo de obstáculo a zero é um caso especial da classe mais geral de modelos de obstáculo, mas a partir de uma referência na Wikipedia ( Hall, 2004 ), também vejo que alguns modelos inflados podem ter limites superiores. Não entendo bem a diferença nas fórmulas, mas elas parecem bastante parecidas (ambas usam um exemplo muito parecido, reivindicações de seguro). Espero que outras respostas possam ajudar a explicar quaisquer diferenças importantes, e que essa resposta ajude a preparar o cenário para elas.
Referência da Wikipedia:
fonte