Traçar e interpretar a regressão logística ordinal

19

Eu tenho uma variável dependente ordinal, facilidade, que varia de 1 (não é fácil) a 5 (muito fácil). Aumentos nos valores dos fatores independentes estão associados a um aumento na classificação de facilidade.

Duas das minhas variáveis ​​independentes ( condAe condB) são categóricas, cada uma com 2 níveis e 2 ( abilityA, abilityB) são contínuas.

Estou usando o pacote ordinal em R, onde ele usa o que acredito ser

logit(p(Yg))=emp(Yg)p(Y>g)=β0 0g-(β1X1++βpXp)(g=1,...,k-1)

(da resposta de @ caracal aqui ))

Aprendi isso de forma independente e agradeceria qualquer ajuda possível, pois ainda estou lutando com isso. Além dos tutoriais que acompanham o pacote ordinal, também achei útil o seguinte:

Mas estou tentando interpretar os resultados, juntar os diferentes recursos e estou ficando paralisado.

  1. Eu li muitas explicações diferentes, abstratas e aplicadas, mas ainda estou tendo dificuldades para entender o que significa dizer:

    Com um aumento de 1 unidade no condB (ou seja, mudando de um nível para o próximo do preditor categórico), as chances previstas de observar Y = 5 versus Y = 1 a 4 (bem como as chances previstas de Y = 4 versus Y = 1 a 3) muda por um fator de exp (beta) que, para o diagrama, é exp (0,457) = 1,58.

    uma. Isso é diferente para as variáveis ​​independentes categóricas versus contínuas?
    b. Parte da minha dificuldade pode estar na idéia de probabilidades cumulativas e nessas comparações. ... É justo dizer que passar de condA = ausente (nível de referência) para condA = presente tem 1,58 vezes mais chances de ser classificado com um nível mais alto de facilidade? Tenho certeza de que NÃO está correto, mas não sei como defini-lo corretamente.

Graficamente,
1. Ao implementar o código neste post , estou confuso sobre o porquê dos valores de 'probabilidade' resultantes serem tão grandes.
2. O gráfico de p (Y = g) neste post faz mais sentido para mim ... com uma interpretação da probabilidade de observar uma categoria específica de Y com um valor específico de X. A razão pela qual estou tentando entender o gráfico em primeiro lugar é entender melhor os resultados em geral.

Aqui está a saída do meu modelo:

m1c2 <- clmm (easiness ~ condA + condB + abilityA + abilityB + (1|content) + (1|ID), 
              data = d, na.action = na.omit)
summary(m1c2)
Cumulative Link Mixed Model fitted with the Laplace approximation

formula: 
easiness ~ illus2 + dx2 + abilEM_obli + valueEM_obli + (1 | content) +  (1 | ID)
data:    d

link  threshold nobs logLik  AIC    niter     max.grad
logit flexible  366  -468.44 956.88 729(3615) 4.36e-04
cond.H 
4.5e+01

Random effects:
 Groups  Name        Variance Std.Dev.
 ID      (Intercept) 2.90     1.70    
 content  (Intercept) 0.24     0.49    
Number of groups:  ID 92,  content 4 

Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
condA              0.681      0.213    3.20   0.0014 ** 
condB              0.457      0.211    2.17   0.0303 *  
abilityA           1.148      0.255    4.51  6.5e-06 ***
abilityB           0.577      0.247    2.34   0.0195 *  

Threshold coefficients:
    Estimate Std. Error z value
1|2   -3.500      0.438   -7.99
2|3   -1.545      0.378   -4.08
3|4    0.193      0.366    0.53
4|5    2.121      0.385    5.50
jc7
fonte
4
+1, é bom ver uma pergunta tão bem pesquisada e formulada. Bem-vindo ao CV.
gung - Restabelece Monica

Respostas:

2

As anotações do curso Minhas estratégias de modelagem de regressão têm dois capítulos sobre regressão ordinal que podem ajudar. Veja também este tutorial.

As notas do curso detalham o que significam as suposições do modelo, como são verificadas e como interpretar o modelo ajustado.

Frank Harrell
fonte
Concluído - obrigado pelo alerta
Frank Harrell