Explicação do modelo Tobit

13

Temos 100 participantes em dois grupos, em cada grupo. Utilizamos uma avaliação da capacidade do funcionamento básico em quatro momentos. A avaliação compreende 6 perguntas, cada uma com pontuação de 0 a 5. Não temos pontuações individuais para cada pergunta, apenas pontuações totais que variam de 0 a 30. Pontuações mais altas indicam melhor funcionamento. O problema é que a avaliação é muito básica e tem um efeito teto significativo. Os resultados são muito negativos. A maioria dos participantes pontuou perto de 30, especialmente nos três momentos seguintes. É provável que nem todos os participantes que pontuaram nos limites superiores sejam realmente iguais em capacidade: alguns deles marcaram 30 e outros marcaram 30 com facilidade e pontuariam muito mais se possível e, portanto, os dados são censurado de cima.n=50

Quero comparar os dois grupos e ao longo do tempo, mas obviamente isso é muito difícil, dada a natureza dos resultados. Transformações de qualquer tipo não fazem diferença. Fui informado de que o modelo Tobit é o melhor equipado para essa avaliação e posso executar a análise em R usando exemplos do artigo de Arne Henningen, Estimando modelos de regressão censurada em R usando o pacote censReg .

No entanto, tenho apenas um conhecimento básico de estatística e achei as informações sobre o modelo Tobit bastante complicadas. Eu preciso ser capaz de explicar esse modelo em linguagem simples e não consigo encontrar uma explicação em linguagem simples, explicações sobre o que o modelo Tobit realmente faz e como. Alguém pode explicar o modelo Tobit ou me apontar na direção de uma referência legível sem explicações estatísticas e matemáticas complicadas?

Extremamente grato por qualquer ajuda

Adão
fonte

Respostas:

8

O wiki descreve o modelo Tobit da seguinte maneira:

yi={yiifyi>0 0ifyi0

yi=βxi+ui

uiN(0,σ2)

Vou adaptar o modelo acima ao seu contexto e oferecer uma interpretação clara em inglês das equações que podem ser úteis.

yi={ yiifyi3030ifyi>30

yi=βxi+ui

uiN(0,σ2)

No conjunto de equações acima, representa a habilidade de um sujeito. Assim, o primeiro conjunto de equações declara o seguinte:yi

  1. Nossas medidas de capacidade são cortadas no lado superior em 30 (ou seja, capturamos o efeito do teto). Em outras palavras, se a capacidade de uma pessoa for maior que 30, nosso instrumento de medição não registra o valor real, mas registra 30 para essa pessoa. Observe que o modelo declara .yi=30ifyi>30

  2. Se, por outro lado, a capacidade de uma pessoa é inferior a 30, nosso instrumento de medição é capaz de registrar a medição real. Observe que o modelo declara .yi=yiifyi30

  3. a capacidade, , como uma função linear de nossas covariáveis e um termo de erro associado para capturar ruído.yixi

Espero que seja útil. Se algum aspecto não estiver claro, não hesite em perguntar nos comentários.

varty
fonte
Varty, apreciei muito sua resposta. Foi muito útil e muito rápido! Não tenho certeza se me sentiria à vontade para explicar isso ainda, mas continuarei lendo. Se você conhece algum texto legível no Tobit, sinta-se à vontade para encaminhá-lo. Muito obrigado novamente
Adam
4

Há um artigo de Berk na edição de 1983 da American Sociological Review (terceira edição) - foi assim que aprendi sobre censura. A explicação é especificamente sobre o viés de seleção, mas é absolutamente relevante para o seu problema. O viés de seleção, como Berk discute, é apenas censurar através do processo de seleção de amostras; no seu caso, a censura é resultado de um instrumento insensível. Existem alguns gráficos interessantes que mostram exatamente como você pode esperar que sua linha de regressão seja enviesada quando Y é censurado de maneiras diferentes. Em geral, o artigo é lógico e intuitivo, e não matemático (sim, eu os trato como separados, preferindo o primeiro). Tobit é discutido como uma solução para o problema.

De maneira mais geral, parece que o tobit é a ferramenta certa para o trabalho em questão. Basicamente, o modo como funciona é estimar a probabilidade de ser censurado e incorporá-lo à equação que prevê a pontuação. Há outra abordagem proposta por Heckman usando probit e a razão inversa dos moinhos, que é basicamente a mesma coisa, mas permite que você tenha variáveis ​​diferentes que prevejam a probabilidade de censura e a pontuação no teste - obviamente isso não seria apropriado para a situação que você ter.

Uma outra recomendação - você pode considerar um modelo de token hierárquico em que as observações são aninhadas nos indivíduos. Isso explicaria corretamente a tendência de os erros serem associados nos indivíduos. Ou, se você não usar um modelo hierárquico, pelo menos, certifique-se de ajustar seus erros padrão para agrupar as observações em indivíduos. Sei que tudo isso pode ser feito no Stata e estou confiante de que o R com toda a sua versatilidade também pode fazê-lo .. mas, como um usuário ávido do Stata, não posso fornecer nenhuma orientação sobre como fazê-lo na R.

Vai
fonte
Suponho que esta seja a citação completa do artigo que @Will está se referindo: Berk, RA (1983). Introdução ao viés de seleção de amostras em dados sociológicos. American Sociological Review, 48, 386-398. doi: 10.2307 / 2095230 Existem várias versões disponíveis gratuitamente deste documento, que você encontrará no Google Scholar, por exemplo.
CRSH