Diferença exata entre os modelos de duas partes (por exemplo, Cragg) e os modelos Tobit tipo 2 (por exemplo, Heckman)

8

Quero executar uma regressão em que DV seja a quantia de financiamento (em dólares americanos) obtida pelas startups. Naturalmente, o DV contém muitos zeros (~ 55%) e tem uma distribuição contínua para y> 0.

Em geral, meu entendimento é que o modelo Tobit (ou uma variação dele) é apropriado para modelar esse DV.

Embora eu esteja lendo e discutindo há meses, ainda luto para entender a diferença exata entre o modelo padrão de Tobit (1958), as extensões em duas partes propostas por Cragg (1971) e o modelo Tobit Tipo 2, por exemplo, representado por Heckmann (1974, 1976, 1979). Meu entendimento atual é que todos os modelos podem ser, em teoria, aplicáveis ​​com vários prós e contras e possíveis razões para não usá-los (dependendo das características exatas do conjunto de dados).

Por que excluí o modelo Tobit padrão

Para minha aplicação, excluí o modelo Tobit padrão, pois ele permite que ambos os processos sejam governados pelas mesmas variáveis ​​para as quais também apenas um coeficiente é relatado. Portanto, o efeito de uma determinada variável não pode ter um sinal diferente na equação de seleção e resultado (o que, às vezes, é o caso).

Tobit Tipo 2 (ou modelo de seleção Heckmann) vs. modelo de duas partes (Cragg)

Até agora, meu entendimento é que a principal diferença entre os dois modelos é o fato de que os modelos de duas partes assumem apenas zeros verdadeiros, enquanto o Tobit Tipo 2 é responsável também (ou apenas?) Por zeros não observados (por exemplo, pessoas que geralmente não fumam). a 0 e as pessoas que geralmente fumam, mas em um determinado momento não podem se dar ao luxo de fumar, também são 0)

Isso, no entanto, não é inteiramente verdade, pois Cragg (1971) também propôs originalmente um modelo de duplo obstáculo em que dois obstáculos precisam ser superados antes que valores positivos de y sejam observados: "Primeiro, uma quantidade positiva deve ser desejada [(ou seja, I sou fumante ou não)]. Segundo, circunstâncias favoráveis ​​devem surgir para que o desejo positivo seja realizado [(ou seja, sou fumante e tenho fundos suficientes para permitir fumar)] ".

Eu acho que isso significa que o Tobit Tipo II é responsável por ambos os tipos de zeros (ou apenas não observados?) Na primeira equação de seleção e a equação de resultado é truncada em y> 0, o modelo de Cragg com obstáculo único é responsável por zeros verdadeiros na seleção A equação e o modelo de Cragg de duplo obstáculo respondem por zeros 'não observados' durante a seleção e zeros 'verdadeiros' durante a equação do resultado.

Questões

  • Minha afirmação sobre os três modelos está correta? E o que isso significa exatamente? As fontes de zeros são os únicos / principais critérios de decisão? Nesse caso, isso significaria para mim meus dados: as startups decidem se candidatar a financiamento ou não (primeira fonte de zeros -> não observada); posteriormente, o mercado decide fornecer financiamento ou não (segunda fonte de zeros -> observada) e, no caso positivo, quanto (y> 0) -> modelo de obstáculo duplo de Cragg (o verdadeiro modelo de obstáculo 'duplo' que muitas vezes é erroneamente confundido com o modelo de obstáculo único)

  • Independentemente da minha conlusão (potencialmente errada): Quais são os principais critérios de decisão que devo considerar / discutir ao decidir sobre que tipo de modelo usar (modelo Tobit Tipo 2 (Heckmann) ou um modelo de duas partes (um obstáculo único (todos os zeros) são zeros verdadeiros) ou duplo obstáculo (zeros podem surgir na seleção e no consumo))? Existe mais do que 'apenas' a fonte dos zeros?

Informação adicional

Este artigo (que é uma ótima leitura! Brad R. Humphreys, 2013 https://sites.ualberta.ca/~bhumphre/class/zeros_v1.pdf ) e, especialmente, um de seus principais gráficos insira a descrição da imagem aquidestaca a diferença entre zeros não observados (ou seja, dados ausentes, empresas que não procuram financiamento) e zeros observados (ou seja, investidores que fornecem financiamento ou não) muito bem. Ele também fornece orientações sobre quais modelos usar, mas, infelizmente, não fornece uma solução para dados em que os dois tipos de zeros estão presentes ao mesmo tempo.

Solução potencial

Depois de me aprofundar, encontrei dois artigos que oferecem uma solução estatística exatamente para o que estou procurando:

  • Blundell, Richard e Meghir, Costas, (1987), Alternativas bivariadas ao modelo Tobit, Journal of Econometrics, 34, edição 1-2, p. 179-200. ( http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternatives-to-the-tobit-model.pdf ) descrevem um modelo de barreira dupla que assume dependência. Para uma aplicação, ver Blundell, Richard, Ham, John e Meghir, Costas, (1987), Desemprego e Oferta de Trabalho Feminino, Economic Journal, 97, edição 388a, p. 44-64.
  • Outra solução é oferecida por Moulton, Lawrence H. e Neal A. Halsey. "Um modelo de mistura com limites de detecção para análises de regressão da resposta de anticorpos à vacina." Biometrics, vol. 51, n. 4, 1995, pp. 1570-1578. www.jstor.org/stable/2533289, que descrevem um modelo de mistura Bernoulli / Lognormal para dados censurados que também é responsável pelos dois tipos de zeros.

Infelizmente não consegui encontrar nenhuma implementação confiável no Stata ou no R (existe um pacote chamado mhurdle, mas parece não estar funcionando bem com pesos e gerando erros aleatórios ...)

Algum comentário ou mais idéias?

JNWHH
fonte
Você descobriu uma resposta por conta própria? Se sim, responda abaixo - estou interessado nas respostas às perguntas que você fez.
Mark White

Respostas:

1

Obrigado por perguntar, Mark. No contexto dos meus dados, acabei usando o modelo de barreira dupla proposto por Blundell (o primeiro item das minhas soluções sugeridas). Com base no feedback que recebi nas conferências acadêmicas, essa parece ser uma abordagem viável. Também acabei usando o mhurdle do pacote R. Os pesos simplesmente não funcionam - o restante do código parece ser muito sólido.

Em relação às minhas perguntas específicas; Não tenho uma resposta finita para todos eles, mas deixe-me tentar resumir o que aprendi:

Minha afirmação sobre os três modelos está correta? Parece que sim

As fontes de zeros são os únicos / principais critérios de decisão? Eles certamente não são os únicos critérios de decisão, mas no contexto de dados com um ponto de massa em zero, gastar um tempo significativo na compreensão de como os zeros são gerados é extremamente importante.

Quais são os principais critérios de decisão que devo considerar / discutir ao decidir sobre que tipo de modelo usar? Além das perguntas óbvias sobre o tipo de variável dependente e sua distribuição, as duas principais perguntas que envolvem dados com um ponto de massa em zero são: Deseja distinguir seus resultados pelos dois estágios diferentes ou é suficiente relatar um conjunto de coeficientes? Nesse caso, você pode usar um modelo Tobit; caso contrário, você precisará de um modelo de duas partes em que a discussão sobre as diferentes fontes de zeros entre em jogo.

Existe mais do que "apenas" a fonte dos zeros? Sim - existe. Pelo menos dois: zeros observados / verdadeiros e zeros não observados / falsos (os últimos são realmente NAs ou valores tão pequenos que são recodificados como 0)

Espero que isto te ajude um pouco! Jan

JNWHH
fonte