Como você prevê uma categoria de resposta, considerando um modelo de regressão logística ordinal?

Eu quero prever um problema de saúde. Tenho três categorias de resultados ordenadas: 'normal', 'leve' e 'grave'. Desejo prever isso a partir de duas variáveis preditoras, um resultado de teste (uma covariável contínua e com intervalo) e histórico familiar com esse problema (sim ou não). Na minha amostra, as probabilidades são de 55% (normal), 35% (leve) e 10% (grave). Nesse sentido, eu sempre podia prever 'normal' e estar certo 55% das vezes, embora isso não me desse informações sobre pacientes individuais. Eu me encaixo no seguinte modelo:

\begin{aligned} the cut point for \hat{(y \geq 1)} & = - 2.18 \\ the cut point for \hat{(y \geq 2)} & = - 4.27 \\ {\hat{β}}_{t e s t} & = 0.60 \\ {\hat{β}}_{f a m i l y h i s t o r y} & = 1.05 \end{aligned}

$\begin{align} \text{the cut point for }\widehat{(y \ge 1)} &= -2.18 \\ \text{the cut point for }\widehat{(y \ge 2)} &= -4.27 \\ \hat\beta_{\rm test} &= 0.60 \\ \hat\beta_{\rm family\ history} &= 1.05 \end{align}$

Suponha que não haja interação e que tudo esteja bem com o modelo. A concordância, c, é de 60,5%, que eu entendo ser a precisão preditiva máxima que o modelo oferece.

\frac{\exp (- X β - c u t P o i n t)}{(1 + \exp (- X β - c u t P o i n t))}

$\frac{\exp(-X\beta - {\rm cutPoint})}{(1+\exp(-X\beta - {\rm cutPoint}))}$

cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

Ou seja: 1. 0 = 55,1%, 1 = 35,8%, 2 = 9,1%; e 2. 0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Minha pergunta é: como vou da distribuição de probabilidade para uma categoria de resposta prevista?

Eu tentei várias possibilidades usando os dados da amostra, onde o resultado é conhecido. Se eu escolher apenas max (probabilidades), a precisão será de 57%, uma ligeira melhora em relação ao nulo, mas abaixo da concordância. Além disso, na amostra, essa abordagem nunca escolhe 'grave', que é o que eu realmente quero saber. Tentei uma abordagem bayesiana convertendo probabilidades nulas e de modelo em probabilidades e depois escolhendo o máximo (razão de chances). Isso escolhe 'grave' ocasionalmente, mas produz uma precisão pior 49,5%. Eu também tentei uma soma das categorias ponderadas pelas probabilidades e arredondamentos. Isso, novamente, nunca escolhe 'grave' e tem baixa precisão de 51,5%.

Qual é a equação que pega as informações acima e produz uma precisão ótima (60,5%)?

logistic ordered-logit Repor a Monica
fonte

Respostas:

$Y$ rmslrmpredict.lrm

Frank Harrell
fonte

Obrigado pela ajuda. Eu suspeitava que a baixa frequência de graves fazia parte do problema. Eu acho que meu Y bruto, 0 1 2, é um intervalo insuficientemente igual. Acho que meu objetivo está errado. Infelizmente, acho que quero saber em que categoria um novo paciente se enquadra / não entende completamente qual deve ser meu objetivo . É possível fornecer um pouco mais de insight? (Na verdade, eu suspeito que o CV não seja o fórum para uma lição completa; em alternativa, você sabe onde eu poderia aprender sobre esse problema? Eu li as seções da Introdução da Agresti e da Logística de Hosmer e Lemeshow da Agresti, mas sem sucesso.)

gung - Restabelece Monica

O objetivo é conduzido pela decisão necessária ou pelo assunto. Se você indicar o objetivo final, talvez eu possa comentar.

precisa

Desculpe pela minha falta de clareza, parece ter sido um problema acima também. No momento, quero poder prever o resultado para novos casos. A longo prazo, quero entender melhor o registro do log ord, por exemplo, como você obtém resíduos se não possui categorias previstas? Acho que é possível uma precisão um pouco melhor, mas não sei como obtê-lo. Tenho certeza de que você não tem tempo para explicar tudo, mas nem Agresti, nem H&L dizem nada sobre previsões ou resíduos, etc. e não consegui encontrar nada com o google. Assim, perguntei no CV. Agradeço sua ajuda contínua.

gung - Restabelece Monica

Y \geq j

$Y\geq j$

j

$j$

-1

A concordância é definida verificando a pontuação média, não a pontuação máxima.

Portanto, para seus exemplos, as pontuações médias de 1 são 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54 e 2 é (através de cálculos semelhantes) 0,826.

É esse valor que você deve comparar para obter a concordância ou qualquer outra estatística de associação.

Ref - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm

KalEl
fonte

Y

$Y$

X β

$X\beta$

D_{x y}

$D_{xy}$

SAS PROC LOGIST

Y

$Y$