Realizei regressão logística multivariada com a variável dependente Y
sendo a morte em um lar de idosos dentro de um determinado período de entrada e obtive os seguintes resultados (observe se as variáveis começam com A
um valor contínuo, enquanto as que iniciam B
são categóricas):
Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0728 -0.2167 -0.1588 -0.1193 3.7788
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 20.048631 6.036637 3.321 0.000896 ***
A1 0.051167 0.016942 3.020 0.002527 **
B2 -0.664940 0.304299 -2.185 0.028878 *
B3 -2.825281 0.633072 -4.463 8.09e-06 ***
B4 -2.547931 0.957784 -2.660 0.007809 **
B5 -2.862460 1.385118 -2.067 0.038774 *
A6 -0.129808 0.041286 -3.144 0.001666 **
A7 0.020016 0.009456 2.117 0.034276 *
A8 -0.707924 0.253396 -2.794 0.005210 **
A9 0.003453 0.001549 2.229 0.025837 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 485.10 on 2206 degrees of freedom
Residual deviance: 417.28 on 2197 degrees of freedom
AIC: 437.28
Number of Fisher Scoring iterations: 7
(Intercept) A1 B2 B3 B4 B5 A6 A7 A8 A9
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00
2.5 % 97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1 1.018123e+00 1.088035e+00
B2 2.832698e-01 9.337710e-01
B3 1.714448e-02 2.050537e-01
B4 1.197238e-02 5.113460e-01
B5 3.782990e-03 8.627079e-01
A6 8.099945e-01 9.522876e-01
A7 1.001484e+00 1.039302e+00
A8 2.998207e-01 8.095488e-01
A9 1.000416e+00 1.006510e+00
Como você pode ver, todas as variáveis são "significativas", pois seus valores de p estão abaixo do limite usual de 0,05. No entanto, olhando para os coeficientes, não sei bem o que fazer com esses resultados. Parece que, embora essas variáveis contribuam para o modelo, observando as razões de chances, elas não parecem realmente ter muito poder preditivo. É importante notar que, quando calculei a AUC, obtive aproximadamente 0,8.
Posso dizer que esse modelo é melhor em prever a mortalidade (por exemplo, prever que os idosos viverão após o período prescrito) em comparação com a previsão da mortalidade?
fonte
Respostas:
C
Dxy
Como dito acima, o modelo provavelmente é super otimista. Agora usamos o bootstrap para quantificar o otimismo:
optimism
index.corrected
Também podemos calcular uma curva de calibração usando a reamostragem:
A construção de modelos preditivos é um tópico importante e sugiro a leitura das notas do curso de Frank Harrell .
fonte
rms
pacote @COOLSerdash e Nick.Uma observação sobre a interpretação dos coeficientes: lembre-se de que eles dependem de como os preditores são escritos como números. Assim, para variáveis contínuas elas dependem das unidades em que são medidas; para preditores categóricos, o esquema de codificação. Não fique tentado a pensar que, digamos, A9 é 'sem importância' apenas porque seu coeficiente de 0,003453 é pequeno - A9 pode variar em várias ordens de magnitude em alguma população de interesse, enquanto os outros preditores variam apenas um pouco, ou pode ser fácil definir valores muito altos ou baixos, enquanto os outros são difíceis de mudar muito.
fonte