Modelagem quando a variável dependente tem um "ponto de corte"

12

Pedimos desculpas antecipadamente se qualquer uma das terminologias utilizadas estiver incorreta. Eu gostaria de receber qualquer correção. Se o que eu descrevo como "corte" tiver um nome diferente, informe-me e eu posso atualizar a pergunta.

A situação em que estou interessado é: você tem variáveis ​​independentes e uma única variável dependente y . Vou deixar isso vago, mas suponha que seria relativamente simples obter um bom modelo de regressão para essas variáveis.xy

No entanto, o modelo que você pretende criar é para variáveis ​​independentes e variável dependente w = min ( y , a ) , em que a é algum valor fixo no intervalo de y . Da mesma forma, os dados aos quais você tem acesso não incluem y , apenas w .xw=min(y,a)ayyw

Um exemplo (um tanto irreal) disso seria se você estivesse tentando modelar por quantos anos as pessoas receberão sua pensão. Nesse caso, pode ser uma informação relevante, como sexo, peso, horas de exercício por semana, etc. A variável "subjacente" y seria a expectativa de vida. No entanto, a variável que você teria acesso e tentaria prever em seu modelo seria w = min ( 0 , y - r ) em que r é a idade da aposentadoria (assumindo que a simplicidade é fixa).xyw=min(0,yr)

Existe uma boa abordagem para lidar com isso na modelagem de regressão?

Ben Aaronson
fonte
1
Não tenho certeza, mas isso pode parecer acessível através de algumas variações da análise de sobrevivência. 1) Envolve censura. 2) Pelo menos no seu exemplo, envolve tempo. Mas seria censurado à esquerda em vez de censurado à direita (o que é mais comum). Se você concorda comigo, pode adicionar a etiqueta de sobrevivência e ver se alguém pula nela.
Peter Flom - Restabelece Monica
4
@ Peter Com certeza parece censurado para mim. De que lado a censura ocorre é de pouca importância, porque, ao negar a variável dependente, uma alterna entre a censura à direita e à esquerda.
whuber
@whuber acho que você está certo. Mas, como você diz, a censura pode mudar com bastante facilidade.
Peter Flom - Restabelece Monica
O exemplo da aposentadoria parece exigir um modelo de dados de contagem (se você deseja arredondar para anos inteiros e desde que todos estejam mortos no momento em que você executa a análise). A abordagem das variáveis ​​latentes parece exagerada, pois o tempo não pode ser negativo.
Dimitriy V. Masterov 22/01

Respostas:

14

Esse tipo de modelo tem vários nomes, dependendo da disciplina e da área de tópicos. Os nomes comuns para ele são Variáveis ​​dependentes censuradas, Variáveis ​​dependentes truncadas, Variáveis ​​dependentes limitadas, Análise de sobrevivência, Tobit e Regressão censurada. Provavelmente estou deixando de fora vários outros nomes.

A configuração que você sugere onde é observado é chamada de "censura correta", porque os valores de y i muito à direita na linha real são censurados --- e, em vez disso, vemos apenas o ponto de censura, um .min{yi,a}yia

Uma maneira de lidar com dados como esse é através do uso de variáveis ​​latentes (e isso é basicamente o que você propõe). Aqui está uma maneira de proceder:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

Em seguida, você pode analisar isso pela máxima probabilidade. As observações em que a censura ocorre contribuem com para a função de verossimilhança, e as observações em que a censura não ocorre contribuem1P{yi>a}=Φ(1σxiβa)para a função de verossimilhança. O CDF do padrão normal éΦe a densidade do padrão normal éϕ. Portanto, a função de probabilidade se parece com:1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

βσ maximizando isso. Você obtém erros padrão como os erros padrão de probabilidade máxima usual.

Como você pode imaginar, essa é apenas uma abordagem entre muitas.

Conta
fonte
1
+1 Um exemplo bem- sucedido da solução ML aparece em stats.stackexchange.com/questions/49443 .
whuber
@whuber Essa é uma boa exposição.
Bill