Não sei se posso lhe dar uma resposta completa, mas posso lhe dar algumas idéias que podem ser úteis. Primeiro, todos os modelos / testes estatísticos têm suposições. No entanto, a regressão logística não pressupõe que os resíduos sejam normalmente distribuídos nem que a variação seja constante. Em vez disso, supõe-se que os dados sejam distribuídos como um binômio , ou seja, com o número de tentativas de Bernoulli igual ao número de observações naquele conjunto exato de valores covariáveis e com a probabilidade associada a esse conjunto de valores covariáveis. Lembre-se de que a variação de um binômio é . Assim, se oB(nxi,pxi)np(1−p)nvariam em diferentes níveis da covariável, as variações também. Além disso, se alguma das covariáveis estiver relacionada à variável de resposta, as probabilidades variarão e, assim, as variações. Esses são fatos importantes sobre a regressão logística.
Segundo, as comparações de modelos geralmente são realizadas entre modelos com especificações diferentes (por exemplo, com diferentes conjuntos de covariáveis incluídas), e não sobre diferentes subconjuntos de dados. Para ser sincero, não tenho certeza de como isso seria feito corretamente. Com um modelo linear, você pode olhar para os 2 s para ver quão melhor é o ajuste com os dados aberrantes excluídos, mas isso seria apenas descritivo e você deve saber que teria que subir. Com a regressão logística, no entanto , o padrão não pode ser usado. Existem vários 'pseudo-R2R2R2R2s 'que foram desenvolvidos para fornecer informações semelhantes, mas geralmente são considerados defeituosos e não são frequentemente usados. Para uma visão geral dos diferentes pseudo- s que existem, veja aqui . Para alguma discussão e crítica deles, veja aqui . Outra possibilidade pode ser o canivete dos betas com e sem os valores extremos incluídos para ver como a exclusão deles contribui para estabilizar suas distribuições amostrais. Mais uma vez, isso seria apenas descritivo (ou seja, não constituiria um teste para informar qual modelo - subconjunto de dados - preferir) e a variação teria que diminuir. Essas coisas são verdadeiras, tanto para pseudo-R2R2se as distribuições com faca, porque você selecionou esses dados a serem excluídos com base no fato de que eles parecem extremos.
I agree with AdamO's comment above in general—assuming that 1 billionaire represents 1/100th of the population is totally fine. However, if the presence of the 1 billionaire skews the data so much that the prediction for the other 99 people is affected, I would remove the 1 billionaire. I would rather be wrong with prediction of an outlier than everyone else.
Having said that, if you remove data points using Cook's D values (i.e., anything > 4/d.f.), then you could use area under ROC curves for both the models to check for improvement.
fonte