Acho que primeiro precisamos perguntar se é necessário usar regressão logística de probabilidades proporcionais para aproximar um risco relativo cumulativo, por exemplo, o risco relativo de relatar um resultado mais alto. A formulação probabilística do modelo de chances proporcionais se baseia na observação de caixas arbitrárias de uma variável aleatória logística latente. Veja minha pergunta relevante aqui . A elegância desse método é que a função de sobrevivência (1-CDF) de um RV logístico é o logit inverso, por exemplo, .P( Z> z) = exp( - z) / ( 1 + exp( - z) ))
Se quisermos assumir uma derivação probabilística semelhante de um modelo de risco relativo, o desejo é encontrar uma variável aleatória latente cuja função de sobrevivência seja . Mas isso é apenas uma variável aleatória exponencial, que não tem memória. Portanto, se construirmos a matriz de variáveis de resultado com limiar, , (acredito) as frequências das células são condicionalmente independentes e, portanto, são passíveis de modelagem via um modelo log-linear que é apenas regressão de Poisson. Isso é tranquilizador, porque a interpretação dos coeficientes de Poisson é uma taxa relativa. Modelar a interação entre a variável resposta como resultado numérico e os coeficientes de regressão leva à interpretação correta.O i j = IP( Z> z) = exp( - z)OEuj= I(YEu≥ j )
Ou seja, ajuste o modelo log-linear:
registro( Neu j| YEu, Xi ,) = η0 0Eu( YEu= 0 ) + … + ηjEu( YEu= = j ) + β⃗ Xi ,+ γ⃗ diag (Y) Xi ,
Usando o exemplo do pacote MASS: vemos o efeito desejado de que o risco relativo é muito menor que o OR em todas as instâncias:
newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)
## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
coef(summary(fit))[effects, ],
coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)
Nos dá:
Estimate Std. Error z value Pr(>|z|) Value Std. Error t value
ny:InflMedium 0.360 0.0664 5.41 6.23e-08 0.566 0.1047 5.41
ny:InflHigh 0.792 0.0811 9.77 1.50e-22 1.289 0.1272 10.14
ny:TypeApartment -0.299 0.0742 -4.03 5.55e-05 -0.572 0.1192 -4.80
ny:TypeAtrium -0.170 0.0977 -1.74 8.21e-02 -0.366 0.1552 -2.36
ny:TypeTerrace -0.673 0.0951 -7.07 1.51e-12 -1.091 0.1515 -7.20
ny:ContHigh 0.106 0.0578 1.84 6.62e-02 0.360 0.0955 3.77
Onde as 4 primeiras colunas são inferência do modelo log-linear e as 3 colunas seguintes provêm do modelo de chances proporcionais.
Isso talvez responda à pergunta mais importante: como alguém se encaixa nesse modelo. Eu acho que pode ser usado para explorar as aproximações relativas de ORs para eventos raros em relação aos RRs.
X
inclua uma interceptação). Eu o escolhi, pois enfatiza os pontos mais relevantes para a questão. (Obviamente não é equivalente uma vez que você substituir logit com registro, mas esta formulação parece generalizar o melhor)