Prevendo logit ordenado em R

12

Estou tentando fazer uma regressão logit ordenada. Estou executando o modelo assim (apenas um pequeno modelo burro que estima o número de empresas em um mercado a partir de medidas de renda e população). Minha pergunta é sobre previsões.

nfirm.opr<-polr(y~pop0+inc0, Hess = TRUE)
pr_out<-predict(nfirm.opr)

Quando executo o prognóstico (que estou tentando usar para obter o y previsto), as saídas são 0, 3 ou 27, o que de forma alguma reflete o que deve parecer a previsão com base nas minhas previsões manuais do coeficiente estimativas e interceptações. Alguém sabe como obter previsões "precisas" para o meu modelo de logit ordenado?

EDITAR

Para esclarecer minha preocupação, meus dados de resposta têm observações em todos os níveis

>head(table(y))
y
0  1  2  3  4  5 
29 21 19 27 15 16 

onde, como minha variável de previsão parece estar se agrupando

> head(table(pr_out))
pr_out
0     1   2   3   4   5 
117   0   0 114   0   0 
prototoast
fonte
2
Isso é bastante vago. Como os valores retornados pela predictfunção diferem dos que você gerou manualmente? Qual é a estrutura da sua variável dependente? Por favor, forneça um exemplo reproduzível.
Sven Hohenstein
1
Eu acho que você gostaria de ver isso- stats.stackexchange.com/questions/18119/…
Blain Waan
2
Eu não sigo bem sua situação. Você diz que está usando um modelo de regressão ordinal, mas também diz, como melhor entendo, que sua variável de resposta é o número de empresas em um mercado. É uma contagem , é ordinal, mas OLR não é o caminho certo para modelar isso; você deseja usar alguma variante da regressão de Poisson.
gung - Restabelece Monica
2
@ gung Sim, eu entendo o ponto sobre contagem vs ordinal. No momento, estou tentando replicar o artigo ideas.repec.org/a/ucp/jpolec/v99y1991i5p977-1009.html e eles usam uma regressão ordinal. Também estimei modelos de contagem, mas isso não me ajuda nessa tarefa em particular. Além disso, não, não é apenas o desejo de R fazer isso, estou tentando entender onde o comportamento está se desviando de minhas expectativas (porque suspeito que o erro seja da minha parte, não R).
prototoast
1
Você verificou polr()outras funções? Você poderia tentar lrm()de pacote rms: lrmFit <- lrm(y ~ pop0 + inc0); predict(lrmFit, type="fitted.ind"). Outra opção é vglm()a partir do pacote VGAM: vglmFit <- vglm(y ~ pop0 + inc0, family=propodds); predict(vglmFit, type="response"). Ambos retornam a matriz de probabilidades de categoria previstas. Veja minha resposta para obter as categorias previstas a partir daí.
Caracal

Respostas:

23

polr()MASSY1,,g,,kX1,,Xj,,Xppolr()

logit(p(Yg))=lnp(Yg)p(Y>g)=β0g(β1X1++βpXp)

Para possíveis opções implementadas em outras funções, consulte esta resposta . A função logística é o inverso da função logit; portanto, as probabilidades previstas sãop^(Yg)

p^(Yg)=eβ^0g(β^1X1++β^pXp)1+eβ^0g(β^1X1++β^pXp)

As probabilidades de categoria previstas são . Aqui está um exemplo reproduzível em R com dois preditores . Para uma variável ordinal , cortei uma variável contínua simulada em 4 categorias.X1,X2YP^(Y=g)=P^(Yg)P^(Yg1)X1,X2Y

set.seed(1.234)
N     <- 100                                    # number of observations
X1    <- rnorm(N, 5, 7)                         # predictor 1
X2    <- rnorm(N, 0, 8)                         # predictor 2
Ycont <- 0.5*X1 - 0.3*X2 + 10 + rnorm(N, 0, 6)  # continuous dependent variable
Yord  <- cut(Ycont, breaks=quantile(Ycont), include.lowest=TRUE,
             labels=c("--", "-", "+", "++"), ordered=TRUE)    # ordered factor

Agora, ajuste o modelo de chances proporcionais polr()e obtenha a matriz de probabilidades de categoria previstas predict(polr(), type="probs").

> library(MASS)                              # for polr()
> polrFit <- polr(Yord ~ X1 + X2)            # ordinal regression fit
> Phat    <- predict(polrFit, type="probs")  # predicted category probabilities
> head(Phat, n=3)
         --         -         +        ++
1 0.2088456 0.3134391 0.2976183 0.1800969
2 0.1967331 0.3068310 0.3050066 0.1914293
3 0.1938263 0.3051134 0.3067515 0.1943088

Para verificar manualmente esses resultados, precisamos extrair as estimativas de parâmetros, desses calcular os logits previstos, desses logits calcular as probabilidades previstas e vincular as probabilidades da categoria prevista a uma matriz .p^(Yg)

ce <- polrFit$coefficients         # coefficients b1, b2
ic <- polrFit$zeta                 # intercepts b0.1, b0.2, b0.3
logit1 <- ic[1] - (ce[1]*X1 + ce[2]*X2)
logit2 <- ic[2] - (ce[1]*X1 + ce[2]*X2)
logit3 <- ic[3] - (ce[1]*X1 + ce[2]*X2)
pLeq1  <- 1 / (1 + exp(-logit1))   # p(Y <= 1)
pLeq2  <- 1 / (1 + exp(-logit2))   # p(Y <= 2)
pLeq3  <- 1 / (1 + exp(-logit3))   # p(Y <= 3)
pMat   <- cbind(p1=pLeq1, p2=pLeq2-pLeq1, p3=pLeq3-pLeq2, p4=1-pLeq3)  # matrix p(Y = g)

Compare com o resultado de polr().

> all.equal(pMat, Phat, check.attributes=FALSE)
[1] TRUE

Para as categorias previstas, predict(polr(), type="class")basta escolher - para cada observação - a categoria com maior probabilidade.

> categHat <- levels(Yord)[max.col(Phat)]   # category with highest probability
> head(categHat)
[1] "-"  "-"  "+"  "++" "+"  "--"

Compare com o resultado polr().

> facHat <- predict(polrFit, type="class")  # predicted categories
> head(facHat)
[1] -  -  +  ++ +  --
Levels: -- - + ++

> all.equal(factor(categHat), facHat, check.attributes=FALSE)  # manual verification
[1] TRUE
caracal
fonte