Resíduos para regressão logística e distância de Cook

10
  1. Existem suposições particulares em relação aos erros de regressão logística, como a variação constante dos termos do erro e a normalidade dos resíduos?

  2. Também normalmente quando você tem pontos com uma distância de Cook maior que 4 / n, você os remove? Se você os remover, como saber se o modelo com os pontos removidos é melhor?

lord12
fonte

Respostas:

12

Não sei se posso lhe dar uma resposta completa, mas posso lhe dar algumas idéias que podem ser úteis. Primeiro, todos os modelos / testes estatísticos têm suposições. No entanto, a regressão logística não pressupõe que os resíduos sejam normalmente distribuídos nem que a variação seja constante. Em vez disso, supõe-se que os dados sejam distribuídos como um binômio , ou seja, com o número de tentativas de Bernoulli igual ao número de observações naquele conjunto exato de valores covariáveis ​​e com a probabilidade associada a esse conjunto de valores covariáveis. Lembre-se de que a variação de um binômio é . Assim, se oB(nxi,pxi)np(1p)nvariam em diferentes níveis da covariável, as variações também. Além disso, se alguma das covariáveis ​​estiver relacionada à variável de resposta, as probabilidades variarão e, assim, as variações. Esses são fatos importantes sobre a regressão logística.

Segundo, as comparações de modelos geralmente são realizadas entre modelos com especificações diferentes (por exemplo, com diferentes conjuntos de covariáveis ​​incluídas), e não sobre diferentes subconjuntos de dados. Para ser sincero, não tenho certeza de como isso seria feito corretamente. Com um modelo linear, você pode olhar para os 2 s para ver quão melhor é o ajuste com os dados aberrantes excluídos, mas isso seria apenas descritivo e você deve saber que teria que subir. Com a regressão logística, no entanto , o padrão não pode ser usado. Existem vários 'pseudo-R2R2R2R2s 'que foram desenvolvidos para fornecer informações semelhantes, mas geralmente são considerados defeituosos e não são frequentemente usados. Para uma visão geral dos diferentes pseudo- s que existem, veja aqui . Para alguma discussão e crítica deles, veja aqui . Outra possibilidade pode ser o canivete dos betas com e sem os valores extremos incluídos para ver como a exclusão deles contribui para estabilizar suas distribuições amostrais. Mais uma vez, isso seria apenas descritivo (ou seja, não constituiria um teste para informar qual modelo - subconjunto de dados - preferir) e a variação teria que diminuir. Essas coisas são verdadeiras, tanto para pseudo-R2R2se as distribuições com faca, porque você selecionou esses dados a serem excluídos com base no fato de que eles parecem extremos.

- Reinstate Monica
fonte
8

1) Existem suposições particulares em relação aos erros de regressão logística, como a variação constante dos termos do erro e a normalidade dos resíduos?

Os modelos de regressão logística não têm "erros" no sentido tradicional. É ao mesmo tempo contra-intuitivo e metodologicamente inconsistente. Os resultados do modelo são probabilidades ou riscos ajustados, enquanto os resultados observados são indicadores de eventos 0/1. Metodologicamente, você tenderia a enfatizar pouco os domínios de probabilidades ajustadas muito altas ou muito baixas (contribuindo com quantidades muito pequenas para a distância residual), enquanto o algoritmo de ajuste de modelo coloca uma importância consideravelmente maior nessas regiões. A distância ao quadrado é geralmente uma maneira ruim de calibrar um modelo de regressão logística.

Um teste de bondade de ajuste alternativo é o teste de Hosmer-Lemeshow, no qual os valores ajustados são usados ​​para criar partições binned com base em decis de risco ajustado. Você pode ler sobre esse teste na Análise de dados categóricos de Alan Agresti ou no livro Regressão logística de Hosmer e Lemeshow. Outro processo é usar os resíduos estudantis, onde a relação de variação média é usada para re-ponderar os resíduos por sua variação inversa ajustada . Para regressão logística, isso é

rstud=Yμμ(1μ)

2) Also typically when you have points that have a Cook's distance larger than 4/n, do you remove them? If you do remove them, how can you tell if the model with the removed points is better?

I never remove points based on sensitivity analyses. If I do a random sample of 100 people and their income and 1 person happens to be a billionaire, then my safest assumption is that that 1 billionaire represents 1/100th of the population.

AdamO
fonte
Why would you assume thet the 1 billionaire represents 1/100th of the population? You would probably be able to get an outside estimate of the proportion of billionaires in the population!
kjetil b halvorsen
6

I agree with AdamO's comment above in general—assuming that 1 billionaire represents 1/100th of the population is totally fine. However, if the presence of the 1 billionaire skews the data so much that the prediction for the other 99 people is affected, I would remove the 1 billionaire. I would rather be wrong with prediction of an outlier than everyone else.

Having said that, if you remove data points using Cook's D values (i.e., anything > 4/d.f.), then you could use area under ROC curves for both the models to check for improvement.

Sanjay Saravanan
fonte
1
(+1) Modelling the relation between the log-odds of response & income with a natural spline, perhaps transforming income beforehand, is another way to avoid the billionaire's affecting predictions for the others overly much. Removing him suggests you're happy not to make predictions for other billionaires (fair enough) rather than happy to make wrong predictions about them.
Scortchi - Reinstate Monica
Ironically, when it comes to predicting binary events, it is true that excluding influential observations may lead to better calibration of risk predictions. However, excluding influential observations will reduce discrimination of risk predictions. The latter is arguably more important. When it comes to predicting the risk of a certain event (which is either 0 or 1, not continuously valued) the best kind of prediction will push cases' predictions closer to 1 and controls' predictions closer to 0. High influence points are often effective at doing this.
AdamO