Interpretando a saída da regressão logística em R

13

Estou trabalhando em uma regressão logística múltipla em R usando glm. As variáveis ​​preditoras são contínuas e categóricas. Uma extração do resumo do modelo mostra o seguinte:

Coefficients:
               Estimate Std. Error z value Pr(>|z|)
(Intercept)   2.451e+00  2.439e+00   1.005   0.3150
Age           5.747e-02  3.466e-02   1.658   0.0973 .
BMI          -7.750e-02  7.090e-02  -1.093   0.2743
...
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Intervalos de confiança:

                  2.5 %       97.5 %
(Intercept)  0.10969506 1.863217e+03
Age          0.99565783 1.142627e+00
BMI          0.80089276 1.064256e+00
...

Razões ímpares:

                 Estimate Std. Error   z value Pr(>|z|)
(Intercept)  1.159642e+01  11.464683 2.7310435 1.370327
Age          1.059155e+00   1.035269 5.2491658 1.102195
B            9.254228e-01   1.073477 0.3351730 1.315670
...

A primeira saída mostra que Age é significativo. No entanto, o intervalo de confiança para a inclui o valor 1 e a razão de chances para a é muito próxima de 1. O que significa o valor p significativo da primeira saída? A é um preditor do resultado ou não?AgeAgeAge

SabreWolfy
fonte
8
É significativo apenas no nível de confiança de 10%, mas os intervalos de confiança são de 5%.
Nick Sabbe
Então intervalos de confiança para 10% não incluiriam 1 então?
SabreWolfy 04/04
O valor p (última coluna primeira tabela) é a chance de o resultado obtido ou pior ser alcançado se a hipótese nula for verdadeira. O intervalo de confiança é uma região que manterá o valor verdadeiro em, por exemplo, 95% das vezes. Se não mantiver o valor verdadeiro hipotético, há no máximo 5% de chance de obtermos o resultado obtido ou pior, se a hipótese for verdadeira. Portanto, isso implicaria que seu valor-p fosse inferior a 5%. Existe uma relação muito próxima entre valores-p e intervalos de confiança (estatística 101). Mas, resumindo: sim, o IC para 10% incluirá 1.
Nick Sabbe 5/05
Parece que você está assumindo linearidade. Como isso é justificado?
precisa

Respostas:

8

Há uma série de perguntas aqui no site que ajudarão na interpretação da saída dos modelos (aqui estão três exemplos diferentes, 1 2 3 , e tenho certeza de que há mais se você pesquisar no arquivo). Aqui também está um tutorial no site de estatísticas da UCLA sobre como interpretar os coeficientes para a regressão logística.

Embora o odds ratio para o coeficiente de idade seja próximo a um, isso não significa necessariamente que o efeito seja pequeno (se um efeito é pequeno ou grande é frequentemente uma questão normativa e empírica). Seria necessário conhecer a variação típica da idade entre as observações para obter uma opinião mais informada.

Andy W
fonte
Obrigado pelo link para o tutorial, que parece abrangente. Eu pesquisei aqui antes de postar minha pergunta. Os links 1 e 3 parecem não estar relacionados à minha pergunta.
SabreWolfy 04/04
@SabreWolfy, o link 1 elucida ainda mais como interpretar os coeficientes em termos das unidades originais, o link 3 descreve as etapas para interpretar os efeitos em termos de probabilidades (o que é realmente aplicável à sua pergunta, e os gráficos sugeridos nessa pergunta seriam uma resposta razoável para mim dizendo que o tamanho do efeito direto é difícil de interpretar sem conhecer a variação na idade).
Andy W
5
(1.059301)×100%=458%
O link da UCLA está morto, mas este provavelmente corresponde (pelo menos o seu conteúdo me ajuda a entender esta pergunta).
MBR