Modelos binários (Probit e Logit) com um deslocamento logarítmico

12

Alguém tem uma derivação de como um deslocamento funciona em modelos binários como probit e logit?

No meu problema, a janela de acompanhamento pode variar em comprimento. Suponha que os pacientes recebam uma injeção profilática como tratamento. A tomada acontece em momentos diferentes; portanto, se o resultado for um indicador binário de se houve algum surto, você precisa se ajustar ao fato de que algumas pessoas têm mais tempo para exibir sintomas. Parece que a probabilidade de um surto é proporcional à duração do período de acompanhamento. Não está claro para mim matematicamente como um modelo binário com deslocamento captura essa intuição (ao contrário do Poisson).

O deslocamento é uma opção padrão tanto no Stata (p.1666) quanto no R , e posso vê-lo facilmente para um Poisson , mas o caso binário é um pouco opaco.

Por exemplo, se tivermos

E[y|x]Z=exp{xβ},
isso é algebricamente equivalente a um modelo em que
E[y|x]=exp{xβ+logZ},
que é o modelo padrão com o coeficiente nologZrestrito a1. Isso é chamado dedeslocamento logarítmico. Estou tendo problemas para descobrir como isso funciona se substituirmosexp{}porΦ()ouΛ() .

Atualização # 1:

O caso do logit foi explicado abaixo.

Atualização # 2:

Aqui está uma explicação do que parece ser o principal uso de compensações para os modelos não-poisson, como probit. A compensação pode ser usada para realizar testes de razão de verossimilhança nos coeficientes das funções do índice. Primeiro você estima o modelo sem restrições e armazena as estimativas. Digamos que você queira testar a hipótese de que . Em seguida, de criar a variável Z = 2 x , ajustar o modelo soltando x e usando Z como um deslocamento não logarítmica. Este é o modelo restrito. Os testes de LR comparam os dois e são uma alternativa ao teste de Wald usual.βx=2z=2xxz

Dimitriy V. Masterov
fonte

Respostas:

8

Você sempre pode incluir um deslocamento em qualquer GLM: é apenas uma variável preditora cujo coeficiente é fixado em 1. A regressão de Poisson é um caso de uso muito comum.

Observe que, em um modelo binomial, o analógico para a exposição do log como um deslocamento é apenas o denominador binomial, portanto, geralmente não há necessidade de especificá-lo explicitamente. Assim como você pode modelar um RV de Poisson como uma contagem com a exposição do log como um deslocamento, ou como uma proporção da exposição como um peso, também pode modelar um RV binomial como contagens de sucessos e fracassos, ou como uma frequência com ensaios como um peso.

logZZp/(1p)

log(p/(1p))=βX+logZp/(1p)=Zexp(βX)

Mas isso não tem nenhum significado específico, como a exposição de log em uma regressão de Poisson. Dito isto, se sua probabilidade binomial for pequena o suficiente, um modelo logístico se aproximará de um modelo de Poisson com link de log (já que o denominador no LHS se aproxima de 1) e o deslocamento pode ser tratado como um termo de exposição de log.

(O problema descrito na sua pergunta R vinculada era bastante idiossincrático.)

Hong Ooi
fonte
Pr(Y=1|X)=Φ(xβ+ln(t))tt
Não é a probabilidade, mas a razão de chances. Esperamos que a edição torne isso mais claro.
Hong Ooi 09/08/13
Expressar o problema em termos de odds ratio deixa muito claro. E o probit?
Dimitriy V. Masterov
Φ()
@StasK Parece certo, mas por que essas opções existem no Stata e no R? O que eles realizam?
Dimitriy V. Masterov 13/08/13
1

Refazendo isso como um problema de tempo até o evento, um modelo logístico com um deslocamento de ln (tempo) não o comprometeria efetivamente com uma função de sobrevivência paramétrica que pode ou não se encaixar bem nos dados?

p / (1-p) = Z * exp (xbeta)

p = [Z * exp (xbeta)] / [1 + Z * exp (xbeta)]

Sobrevivência prevista no tempo Z = 1- [Z * exp (xbeta)] / [1 + Z * exp (xbeta)]

Eric
fonte