Qual é a diferença entre os modelos inflado a zero e os obstáculos?

81

Gostaria de saber se existe uma diferença clara entre as chamadas distribuições infladas com zero (modelos) e as chamadas distribuições com obstáculo a zero (modelos)? Os termos ocorrem com bastante frequência na literatura e suspeito que não sejam os mesmos, mas você poderia me explicar a diferença em termos simples?

skulker
fonte

Respostas:

80

Obrigado pela pergunta interessante!

Diferença: Uma limitação dos modelos de contagem padrão é que os zeros e os não-zeros (positivos) são assumidos como provenientes do mesmo processo de geração de dados. Nos modelos de obstáculos , esses dois processos não são restritos a serem os mesmos. A idéia básica é que uma probabilidade de Bernoulli governe o resultado binário de se uma variável de contagem tem uma realização zero ou positiva. Se a realização for positiva, o obstáculo será ultrapassado e a distribuição condicional dos positivos será governada por um modelo de dados de contagem truncada no zero. Com modelos inflados a zero, a variável de resposta é modelada como uma mistura de uma distribuição de Bernoulli (ou a chame de massa pontual em zero) e uma distribuição de Poisson (ou qualquer outra distribuição de contagem suportada em números inteiros não negativos). Para mais detalhes e fórmulas, consulte, por exemplo, Gurmu e Trivedi (2011) e Dalrymple, Hudson e Ford (2003).

Exemplo: Os modelos de obstáculos podem ser motivados por processos sequenciais de tomada de decisão enfrentados por indivíduos. Você primeiro decide se precisa comprar algo e depois decide a quantidade desse item (que deve ser positivo). Quando você tem permissão para (ou pode potencialmente) comprar nada após a sua decisão de comprar algo, é um exemplo de uma situação em que o modelo inflado a zero é apropriado. Os zeros podem vir de duas fontes: a) nenhuma decisão de compra; b) queria comprar, mas acabou comprando nada (por exemplo, fora de estoque).

Beta: o modelo de obstáculo é um caso especial do modelo de duas partes descrito no capítulo 16 de Frees (2011). Lá, veremos que, para modelos de duas partes, a quantidade de assistência médica utilizada pode ser uma variável contínua e uma variável de contagem. Então, o que foi chamado de certa forma confusa de "distribuição beta inflada a zero" na literatura pertence, de fato, à classe de distribuições e modelos de duas partes (tão comuns na ciência atuarial), o que é consistente com a definição acima de um modelo de barreira . Este excelente livro discutiu modelos inflados a zero na seção 12.4.1 e modelos de obstáculos na seção 12.4.2, com fórmulas e exemplos de aplicações atuariais.

História: os modelos de Poisson inflados a zero (ZIP) sem covariáveis ​​têm uma longa história (ver, por exemplo, Johnson e Kotz, 1969). A forma geral de modelos de regressão ZIP incorporando covariáveis ​​é devida a Lambert (1992). Os modelos de obstáculo foram propostos pela primeira vez por um estatístico canadense Cragg (1971) e posteriormente desenvolvidos por Mullahy (1986). Você também pode considerar Croston (1972), onde contagens geométricas positivas são usadas juntamente com o processo de Bernoulli para descrever um processo de valor inteiro dominado por zeros.

R: Finalmente, se você usar R, há o pacote pscl para "Classes e Métodos para R desenvolvidos no Laboratório Computacional de Ciência Política", de Simon Jackman, contendo as funções hurdle () e zeroinfl () de Achim Zeileis.

As seguintes referências foram consultadas para produzir o acima:

  • Gurmu, S. & Trivedi, PK Excesso de Zeros em Modelos de Contagem para Viagens Recreativas Journal of Business & Economic Statistics, 1996, 14, 469-477
  • Johnson, N., Kotz, S., Distribuições em estatística: Distribuições discretas. 1969, Houghton MiZin, Boston
  • Lambert, D., Regressão de Poisson inflada a zero com aplicação a defeitos de fabricação. Technometrics, 1992, 34 (1), 1–14.
  • Cragg, JG Alguns modelos estatísticos para variáveis ​​dependentes limitadas com aplicação à demanda por bens duráveis ​​Econometrica, 1971, 39, 829-844
  • Mullahy, J. Especificação e teste de alguns modelos de dados de contagem modificados Journal of Econometrics, 1986, 33, 341-365
  • Frees, modelagem de regressão EW com aplicações atuariais e financeiras Cambridge University Press, 2011
  • Dalrymple, ML; Hudson, IL & Ford, RPK Finite Mixture, modelos de Poisson e Hurdle inflados a zero com aplicação à SIDS Computational Statistics & Data Analysis, 2003, 41, 491-504
  • Croston, JD Forecasting e controle de estoque para demandas intermitentes Operational Research Quarterly, 1972, 23, 289-303
Hibernando
fonte
2
Um modelo de obstáculo é realmente um "modelo", então? Ou ele está executando dois modelos seqüenciais e estimados separadamente? Imagine modelar a competitividade das raças eleitorais observando as pontuações de competitividade (1 - margem de vitória). Isso é limitado [0, 1), porque não há laços (por exemplo, 1). Então, primeiro fazemos uma regressão logística para analisar 0 vs. (0, 1). Em seguida, fazemos regressão beta para analisar os casos (0, 1). Parece que estes são dois modelos completamente diferentes, com seus próprios coeficientes e estimativas separadas? Ou eu estou esquecendo de alguma coisa?
Mark White
Por exemplo, você menciona em sua resposta que os zeros podem dever-se a: (a) decidir não comprar um carro ou (b) querer, mas estava sem estoque. Parece que um modelo de barreira não seria capaz de diferenciar entre os dois, pois eles são feitos sequencialmente ...?
Mark White
Considere outro exemplo: as respostas são [1, 7], como uma escala Likert tradicional, com um enorme efeito de teto em 7. Pode-se fazer um modelo de barreira com regressão logística de [1, 7) vs. 7 e, em seguida, uma regressão de Tobit para todos os casos em que as respostas observadas são <7. Novamente, obtemos dois conjuntos de coeficientes de regressão, e eles são estimados separadamente. Parece que não estamos modelando esses processos em conjunto, mas em dois modelos totalmente diferentes? Então, o obstáculo é realmente um modelo, ou apenas o processo de executar dois tipos diferentes de modelos lineares generalizados seguidos?
Mark White
Estendi
Mark White
47

Os modelos de barreira assumem que existe apenas um processo pelo qual um zero pode ser produzido, enquanto os modelos inflados a zero assumem que existem 2 processos diferentes que podem produzir um zero.

Os modelos de obstáculos assumem 2 tipos de sujeitos: (1) aqueles que nunca experimentam o resultado e (2) aqueles que sempre experimentam o resultado pelo menos uma vez. Modelos inflados a zero conceituam sujeitos como (1) aqueles que nunca experimentam o resultado e (2) aqueles que podem experimentá-lo, mas nem sempre.

Em termos simples: os modelos inflado a zero e obstáculo são descritos em duas partes.

π1ππ

A segunda parte é a parte de contagem, que ocorre quando o sistema está "ligado". É aqui que os modelos com inflado zero e obstáculos diferem. Em modelos inflados com zero, as contagens ainda podem ser zero. Nos modelos de obstáculos, eles devem ser diferentes de zero. Para esta parte, os modelos inflados a zero usam uma distribuição de probabilidade discreta "usual", enquanto os modelos de obstáculos usam uma função de distribuição discreta de probabilidade discreta a zero.

Exemplo de modelo de obstáculo: Um fabricante de automóveis deseja comparar dois programas de controle de qualidade para seus automóveis. Ele será comparado com base no número de reclamações de garantia apresentadas. Para cada programa, um conjunto de clientes selecionados aleatoriamente é seguido por 1 ano e o número de reivindicações de garantia que eles registram é contado. As probabilidades de inflação para cada um dos dois programas são comparadas. O estado "desligado" é "registrado zero reivindicações", enquanto o estado "ligado" é "registrado pelo menos uma reivindicação".

Exemplo de um modelo inflado a zero: No mesmo estudo acima, os pesquisadores descobriram que alguns reparos nos automóveis foram consertados sem a apresentação de uma reivindicação de garantia. Dessa maneira, os zeros são uma mistura da ausência de problemas de controle de qualidade e da presença de problemas de controle de qualidade que não envolviam reivindicações de garantia. O estado "desligado" significa "zero reivindicações arquivadas", enquanto o estado "ligado" significa "arquivou pelo menos uma reivindicação OU teve reparos corrigidos sem registrar uma reivindicação".

Veja aqui um estudo no qual os dois tipos de modelos foram aplicados ao mesmo conjunto de dados.

Darren James
fonte
Obrigado pela resposta detalhada. Você teria uma visão da terminologia apropriada para a distribuição beta padrão com zeros adicionados? Usando sua definição de modelos inflados a zero, existe claramente uma fonte de zeros, portanto não pode ser chamado de inflado a zero ... Veja esta discussão stats.stackexchange.com/questions/81343/…
skulker
2
Eu gosto de "distribuição beta com zero de adição", como sugerido por @Hibernating
Darren James
10

yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

e num modelo obstáculo ~ 0 com probabilidade e ~ truncado de Poisson ( ) com a distribuição de probabilidade , e: yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1
Marzieh
fonte
4

Com relação aos modelos de obstáculos, aqui está uma citação de Avanços em modelagem matemática e estatística (Arnold, Balakrishnan, Sarabia e Mínguez, 2008):

O modelo de obstáculo é caracterizado pelo processo abaixo do obstáculo e pelo processo acima. Obviamente, o modelo de obstáculo mais utilizado é o que define o obstáculo em zero. Formalmente, o modelo de obstáculo no zero é expresso como: para paraP(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

A variável pode ser interpretada como a probabilidade de ultrapassar o obstáculo ou, mais precisamente, no caso do seguro, a probabilidade de relatar pelo menos uma reclamação.ϕ

Quanto aos modelos inflados a zero, a Wikipedia diz :

Um modelo inflado a zero é um modelo estatístico baseado em uma distribuição de probabilidade inflada a zero, ou seja, uma distribuição que permite observações frequentes com valor zero.

O modelo de Poisson inflado a zero refere-se a um evento aleatório contendo dados de contagem zero em excesso em unidade de tempo. Por exemplo, o número de reclamações a uma companhia de seguros por qualquer pessoa coberta é quase sempre zero, caso contrário, perdas substanciais causariam a falência da companhia de seguros. O modelo de Poisson inflado a zero (ZIP) emprega dois componentes que correspondem a dois processos de geração de zero. O primeiro processo é governado por uma distribuição binária que gera zeros estruturais. O segundo processo é governado por uma distribuição de Poisson que gera contagens, algumas das quais podem ser zero. Os dois componentes do modelo são descritos a seguir:[1]

Pr(yj=0)=π+(1π)eλ
Pr(yj=hi)=(1π)λhieλhi!,hi1
onde a variável de resultado tem qualquer valor inteiro não negativo, é contar o Poisson esperado para o th indivíduo; é a probabilidade de zeros extras.yjλiiπ

De Arnold e colegas (2008), vejo que um modelo de obstáculo a zero é um caso especial da classe mais geral de modelos de obstáculo, mas a partir de uma referência na Wikipedia ( Hall, 2004 ), também vejo que alguns modelos inflados podem ter limites superiores. Não entendo bem a diferença nas fórmulas, mas elas parecem bastante parecidas (ambas usam um exemplo muito parecido, reivindicações de seguro). Espero que outras respostas possam ajudar a explicar quaisquer diferenças importantes, e que essa resposta ajude a preparar o cenário para elas.

Referência da Wikipedia:

  1. Lambert, D. (1992). Regressão de Poisson inflada a zero, com aplicação a defeitos de fabricação. Technometrics, 34 (1), 1-14.
Nick Stauner
fonte