Regressão logística ordinal com uma função de vínculo diferente

8

Considere uma variável de resultado que possui quatro categorias claras e ordenadas. Isso parece ser um bom uso da regressão logística ordinal para estimar a Odds Ratios para o efeito das covariáveis ​​em mover um sujeito um "degrau" da escada.

Mas os assuntos estão particularmente uniformemente espalhados pelas categorias, então surge uma pergunta:

  • O "pressuposto de resultado raro" para uma OR aproximar um risco relativo ainda é verdadeiro na regressão logística ordinal?
  • Nesse caso, é possível alterar a função de link para estimar diretamente um risco relativo e ainda é possível usar algo como uma aproximação de poisson com erros padrão robustos para lidar com problemas de convergência nesse caso?
Fomite
fonte

Respostas:

2

Acho que primeiro precisamos perguntar se é necessário usar regressão logística de probabilidades proporcionais para aproximar um risco relativo cumulativo, por exemplo, o risco relativo de relatar um resultado mais alto. A formulação probabilística do modelo de chances proporcionais se baseia na observação de caixas arbitrárias de uma variável aleatória logística latente. Veja minha pergunta relevante aqui . A elegância desse método é que a função de sobrevivência (1-CDF) de um RV logístico é o logit inverso, por exemplo, .P(Z>z)=exp(z)/(1+exp(z))

Se quisermos assumir uma derivação probabilística semelhante de um modelo de risco relativo, o desejo é encontrar uma variável aleatória latente cuja função de sobrevivência seja . Mas isso é apenas uma variável aleatória exponencial, que não tem memória. Portanto, se construirmos a matriz de variáveis ​​de resultado com limiar, , (acredito) as frequências das células são condicionalmente independentes e, portanto, são passíveis de modelagem via um modelo log-linear que é apenas regressão de Poisson. Isso é tranquilizador, porque a interpretação dos coeficientes de Poisson é uma taxa relativa. Modelar a interação entre a variável resposta como resultado numérico e os coeficientes de regressão leva à interpretação correta.O i j = IP(Z>z)=exp(z)Oij=I(Yij)

Ou seja, ajuste o modelo log-linear:

log(Nij|Yi,Xi,)=η0I(Yi=0)++ηjI(Yi==j)+βXi,+γdiag(Y)Xi,

Usando o exemplo do pacote MASS: vemos o efeito desejado de que o risco relativo é muito menor que o OR em todas as instâncias:

newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)

## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining  n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
  coef(summary(fit))[effects, ],
  coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)

Nos dá:

                 Estimate Std. Error z value Pr(>|z|)  Value Std. Error t value
ny:InflMedium       0.360     0.0664    5.41 6.23e-08  0.566     0.1047    5.41
ny:InflHigh         0.792     0.0811    9.77 1.50e-22  1.289     0.1272   10.14
ny:TypeApartment   -0.299     0.0742   -4.03 5.55e-05 -0.572     0.1192   -4.80
ny:TypeAtrium      -0.170     0.0977   -1.74 8.21e-02 -0.366     0.1552   -2.36
ny:TypeTerrace     -0.673     0.0951   -7.07 1.51e-12 -1.091     0.1515   -7.20
ny:ContHigh         0.106     0.0578    1.84 6.62e-02  0.360     0.0955    3.77

Onde as 4 primeiras colunas são inferência do modelo log-linear e as 3 colunas seguintes provêm do modelo de chances proporcionais.

Isso talvez responda à pergunta mais importante: como alguém se encaixa nesse modelo. Eu acho que pode ser usado para explorar as aproximações relativas de ORs para eventos raros em relação aos RRs.

AdamO
fonte
1

Vamos abordar suas duas perguntas separadamente:

O "pressuposto de resultado raro" para uma OR aproximar um risco relativo ainda é verdadeiro na regressão logística ordinal?

Na verdade não. Você mesmo disse que seus resultados estão distribuídos igualmente nas quatro categorias; portanto, nenhuma categoria será particularmente rara.

Nesse caso, é possível alterar a função de link para estimar diretamente um risco relativo e ainda é possível usar algo como uma aproximação de poisson com erros padrão robustos para lidar com problemas de convergência nesse caso?

Você pode, mas existe o risco de que, ao usar seu modelo para fazer previsões, a probabilidade prevista de pertencer a uma classe possa ser maior que 1.

O modelo de logit ordenado padrão é formulado juntamente com a suposição de probabilidades proporcionais. Tudo o que estamos fazendo é substituir o "logit" por "log", que ainda produz um modelo válido com uma probabilidade válida que produz estimativas válidas para . Porém, quando você aplica esses dados a dados reais, é possível que um componente para seja mais de um (e, como esse valor está fora do intervalo da suposição de probabilidades proporcionais, você não pode usá-lo para preencher o restante componentes).β p i

Yicategorical(pi);logit(pi)=Xβ
βpi

Isso não pode acontecer se você usar apenas o seu modelo para prever os dados em que foi treinado e é menos provável se

  • você tem muitos dados de treinamento
  • seus dados de treinamento abrangem todas as combinações possíveis de covariáveis ​​(se forem categóricas) ou toda a gama de covariáveis ​​(se forem numéricas)
JDL
fonte
1
Eu não acho que você tenha escrito o modelo de logit ordenado padrão correto. Você tem uma cópia da Agresti ou McCullogh & Nelder? Concordou que, se a distribuição da resposta estiver entre as categorias de logit ordenadas , a aproximação será discutível. Mas e se a maioria dos participantes estivesse agrupada na categoria de resposta mais baixa? K
AdamO
1
@AdamO provavelmente não é a formulação a que você está acostumado, mas é equivalente (desde que Xinclua uma interceptação). Eu o escolhi, pois enfatiza os pontos mais relevantes para a questão. (Obviamente não é equivalente uma vez que você substituir logit com registro, mas esta formulação parece generalizar o melhor)
JDL
1
O modelo de probabilidades de prop tem restrições importantes, a saber, o termo de interceptação (não representado) para cada contraste categórico é ordenado; além disso, é a designação categórica, mas a probabilidade modelada é a probabilidade cumulativa . Acho que estou seguro em dizer que você apenas escreveu um modelo logístico incondicional e isso não está correto. Yi
Adamo
Essas restrições são tratadas pelo pressuposto de chances proporcionais. (Concordo que não são expressos na equação afirmei)
JDL