Pedimos desculpas antecipadamente se qualquer uma das terminologias utilizadas estiver incorreta. Eu gostaria de receber qualquer correção. Se o que eu descrevo como "corte" tiver um nome diferente, informe-me e eu posso atualizar a pergunta.
A situação em que estou interessado é: você tem variáveis independentes e uma única variável dependente y . Vou deixar isso vago, mas suponha que seria relativamente simples obter um bom modelo de regressão para essas variáveis.
No entanto, o modelo que você pretende criar é para variáveis independentes e variável dependente w = min ( y , a ) , em que a é algum valor fixo no intervalo de y . Da mesma forma, os dados aos quais você tem acesso não incluem y , apenas w .
Um exemplo (um tanto irreal) disso seria se você estivesse tentando modelar por quantos anos as pessoas receberão sua pensão. Nesse caso, pode ser uma informação relevante, como sexo, peso, horas de exercício por semana, etc. A variável "subjacente" y seria a expectativa de vida. No entanto, a variável que você teria acesso e tentaria prever em seu modelo seria w = min ( 0 , y - r ) em que r é a idade da aposentadoria (assumindo que a simplicidade é fixa).
Existe uma boa abordagem para lidar com isso na modelagem de regressão?
fonte
Respostas:
Esse tipo de modelo tem vários nomes, dependendo da disciplina e da área de tópicos. Os nomes comuns para ele são Variáveis dependentes censuradas, Variáveis dependentes truncadas, Variáveis dependentes limitadas, Análise de sobrevivência, Tobit e Regressão censurada. Provavelmente estou deixando de fora vários outros nomes.
A configuração que você sugere onde é observado é chamada de "censura correta", porque os valores de y i muito à direita na linha real são censurados --- e, em vez disso, vemos apenas o ponto de censura, um .min{yi,a} yi a
Uma maneira de lidar com dados como esse é através do uso de variáveis latentes (e isso é basicamente o que você propõe). Aqui está uma maneira de proceder:
Em seguida, você pode analisar isso pela máxima probabilidade. As observações em que a censura ocorre contribuem com para a função de verossimilhança, e as observações em que a censura não ocorre contribuem1P{yi>a}=Φ(1σx′iβ−a) para a função de verossimilhança. O CDF do padrão normal éΦe a densidade do padrão normal éϕ. Portanto, a função de probabilidade se parece com:1σϕ((yi−x′iβ)/σ) Φ ϕ
Como você pode imaginar, essa é apenas uma abordagem entre muitas.
fonte