Ao responder a essa pergunta, John Christie sugeriu que o ajuste dos modelos de regressão logística fosse avaliado pela avaliação dos resíduos. Eu estou familiarizado com a interpretação de resíduos no OLS, eles estão na mesma escala que o DV e muito claramente a diferença entre y e y previstos pelo modelo. No entanto, para a regressão logística, no passado, normalmente apenas examinei as estimativas de ajuste do modelo, por exemplo, AIC, porque não tinha certeza do que um resíduo significaria para uma regressão logística. Depois de examinar um pouco os arquivos de ajuda do R, vejo que no R existem cinco tipos de resíduos glm disponíveis c("deviance", "pearson", "working","response", "partial")
,. O arquivo de ajuda refere-se a:
- Davison, AC e Snell, EJ (1991) Residuals and diagnostics. In: Teoria Estatística e Modelagem. Em homenagem a Sir David Cox, FRS , orgs. Hinkley, DV, Reid, N. e Snell, EJ, Chapman & Hall.
Eu não tenho uma cópia disso. Existe uma maneira curta de descrever como interpretar cada um desses tipos? Em um contexto logístico, a soma dos resíduos quadrados fornecerá uma medida significativa do ajuste do modelo ou será melhor para um Critério de Informação?
binnedplot
função no braço do pacote R fornece um gráfico muito útil de resíduos. É bem descrito nas p. 97-101 de Gelman e Hill 2007 .Respostas:
Os resíduos mais fáceis de entender são os resíduos de desvio, como quando ao quadrado estes somam -2 vezes a probabilidade logarítmica. Em seus termos mais simples, a regressão logística pode ser entendida em termos de ajustar a função para o conhecido , de maneira a minimizar o desvio total, que é a soma de resíduos de desvio ao quadrado de todos os pontos de dados.p=logit−1(Xβ) X
O desvio (quadrado) de cada ponto de dados é igual a (-2 vezes) o logaritmo da diferença entre sua probabilidade prevista e o complemento de seu valor real (1 para um controle; 0 para um caso) em termos absolutos. Um ajuste perfeito de um ponto (que nunca ocorre) fornece um desvio de zero, pois log (1) é zero. Um ponto mal ajustado tem um grande desvio residual, pois -2 vezes o log de um valor muito pequeno é um número grande.logit−1(Xβ)
Fazer regressão logística é semelhante a encontrar um valor beta de modo que a soma dos resíduos do desvio quadrado seja minimizada.
Isso pode ser ilustrado com um gráfico, mas não sei como fazer upload de um.
fonte
plogit
? Não ficou claro se você o estava definindo aqui ou em outro lugar.plogit
é em R (estatísticas), nenhum pacote requerido (pelo menos não mais)Em resíduos de Pearsons,
O resíduo de Pearson é a diferença entre as probabilidades observadas e estimadas, dividida pelo desvio padrão binomial da probabilidade estimada. Portanto, padronizando os resíduos. Para amostras grandes, os resíduos padronizados devem ter uma distribuição normal.
De Menard, Scott (2002). Análise de regressão logística aplicada, 2ª Edição. Mil Oaks, CA: Publicações prudentes. Série: Aplicações quantitativas nas ciências sociais, nº 106. Primeira edição, 1995. Ver capítulo 4.4
fonte
Os resíduos de trabalho são os resíduos na iteração final de qualquer método de mínimos quadrados ponderados iterativamente . Eu acho que isso significa os resíduos quando achamos que é a última iteração da execução do modelo. Isso pode levar à discussão de que a execução de modelos é um exercício interativo.
fonte