O que significam os resíduos em uma regressão logística?

62

Ao responder a essa pergunta, John Christie sugeriu que o ajuste dos modelos de regressão logística fosse avaliado pela avaliação dos resíduos. Eu estou familiarizado com a interpretação de resíduos no OLS, eles estão na mesma escala que o DV e muito claramente a diferença entre y e y previstos pelo modelo. No entanto, para a regressão logística, no passado, normalmente apenas examinei as estimativas de ajuste do modelo, por exemplo, AIC, porque não tinha certeza do que um resíduo significaria para uma regressão logística. Depois de examinar um pouco os arquivos de ajuda do R, vejo que no R existem cinco tipos de resíduos glm disponíveis c("deviance", "pearson", "working","response", "partial"),. O arquivo de ajuda refere-se a:

Eu não tenho uma cópia disso. Existe uma maneira curta de descrever como interpretar cada um desses tipos? Em um contexto logístico, a soma dos resíduos quadrados fornecerá uma medida significativa do ajuste do modelo ou será melhor para um Critério de Informação?

russellpierce
fonte
2
Existem elementos para essa pergunta que permanecem sem resposta, por exemplo, a natureza dos resíduos "pearson", "trabalhando", "resposta" e "parciais", mas por enquanto aceitarei a resposta de Thylacoleo.
russellpierce
Acho que a binnedplotfunção no braço do pacote R fornece um gráfico muito útil de resíduos. É bem descrito nas p. 97-101 de Gelman e Hill 2007 .
conjugateprior
11
Uma maneira realmente fácil de verificar o ajuste do modelo é um gráfico das proporções observadas versus as previstas. Mas isso não funcionará se você tiver regressão bernoulli (ou seja, todas as suas observações têm combinações únicas das variáveis ​​independentes, de modo que ), porque você verá apenas uma linha de zeros e uns. ni=1
probabilityislogic
Sim - infelizmente eu normalmente estou usando um DV Bernoulli.
russellpierce
11
Consulte também Noções básicas sobre glm $ residuals e resid (glm) no Stack Overflow .
gung - Restabelece Monica

Respostas:

32

Os resíduos mais fáceis de entender são os resíduos de desvio, como quando ao quadrado estes somam -2 vezes a probabilidade logarítmica. Em seus termos mais simples, a regressão logística pode ser entendida em termos de ajustar a função para o conhecido , de maneira a minimizar o desvio total, que é a soma de resíduos de desvio ao quadrado de todos os pontos de dados.p=logit1(Xβ)X

O desvio (quadrado) de cada ponto de dados é igual a (-2 vezes) o logaritmo da diferença entre sua probabilidade prevista e o complemento de seu valor real (1 para um controle; 0 para um caso) em termos absolutos. Um ajuste perfeito de um ponto (que nunca ocorre) fornece um desvio de zero, pois log (1) é zero. Um ponto mal ajustado tem um grande desvio residual, pois -2 vezes o log de um valor muito pequeno é um número grande.logit1(Xβ)

Fazer regressão logística é semelhante a encontrar um valor beta de modo que a soma dos resíduos do desvio quadrado seja minimizada.

Isso pode ser ilustrado com um gráfico, mas não sei como fazer upload de um.

Thylacoleo
fonte
11
Imagens de registro: use um dos sites de hospedagem de imagens gratuitos (pesquise no google), faça o upload do gráfico para esse site e vincule-o aqui.
Corrigi um erro na minha resposta original. Escrevi pela primeira vez p = logit (X beta). De fato, a probabilidade prevista é o logit inverso da combinação linear, p = inv-logit (X beta). Em R, isso é calculado como p <plogit (X beta), que é p = exp (X beta) / (1 + exp (X * beta)).
Thylacoleo
11
De qual pacote R é plogit? Não ficou claro se você o estava definindo aqui ou em outro lugar.
Amyunimus 31/01
11
@Amyunimus plogité em R (estatísticas), nenhum pacote requerido (pelo menos não mais)
russellpierce
7

Em resíduos de Pearsons,

O resíduo de Pearson é a diferença entre as probabilidades observadas e estimadas, dividida pelo desvio padrão binomial da probabilidade estimada. Portanto, padronizando os resíduos. Para amostras grandes, os resíduos padronizados devem ter uma distribuição normal.

De Menard, Scott (2002). Análise de regressão logística aplicada, 2ª Edição. Mil Oaks, CA: Publicações prudentes. Série: Aplicações quantitativas nas ciências sociais, nº 106. Primeira edição, 1995. Ver capítulo 4.4

tosonb1
fonte
8
isso não está totalmente correto em amostras grandes. É melhor que você exija grandes contagens de células binomiais ou, o que é a mesma coisa, uma grande quantidade de replicação de covariáveis. Os resíduos de pearson estão longe de ser normalmente distribuídos para qualquer observação em que . nini<5
probabilityislogic
5

Os resíduos de trabalho são os resíduos na iteração final de qualquer método de mínimos quadrados ponderados iterativamente . Eu acho que isso significa os resíduos quando achamos que é a última iteração da execução do modelo. Isso pode levar à discussão de que a execução de modelos é um exercício interativo.

ayush biyani
fonte