É possível superajustar um modelo de regressão logística? Vi um vídeo dizendo que, se minha área sob a curva ROC for superior a 95%, é muito provável que ela esteja excessivamente ajustada, mas é possível ajustar demais um modelo de regressão logística?
logistic
overfitting
regression-strategies
carlosedubarreto
fonte
fonte
Respostas:
Sim, você pode ajustar demais os modelos de regressão logística. Mas primeiro, gostaria de abordar o ponto sobre a AUC (Área sob a curva de características operacionais do receptor): Não há regras gerais universais com a AUC, sempre.
O que é a AUC é a probabilidade de que um positivo (ou caso) amostrado aleatoriamente tenha um valor de marcador mais alto que um negativo (ou controle), porque o AUC é matematicamente equivalente à estatística U.
O que a AUC não é é uma medida padronizada de precisão preditiva. Eventos altamente determinísticos podem ter AUCs de preditores únicos de 95% ou mais (como mecatrônica, robótica ou óptica controlada), alguns modelos complexos de previsão de risco logístico multivariável têm AUCs de 64% ou menos, como previsão de risco de câncer de mama, e esses são níveis relativamente altos de precisão preditiva.
Um valor sensível da AUC, como em uma análise de potência, é pré-especificado, reunindo-se conhecimento dos antecedentes e objetivos de um estudo a priori . O médico / engenheiro descreve o que eles querem e você, o estatístico, decide sobre um valor de AUC alvo para o seu modelo preditivo. Então começa a investigação.
É realmente possível superajustar um modelo de regressão logística. Além da dependência linear (se a matriz do modelo é de classificação deficiente), você também pode ter perfeita concordância ou esse é o gráfico de valores ajustados contra Y que discrimina perfeitamente casos e controles. Nesse caso, seus parâmetros não convergiram, mas simplesmente residem em algum lugar no espaço limite que oferece uma probabilidade de . Às vezes, no entanto, a AUC é 1 apenas por acaso.∞
Existe outro tipo de viés que surge da adição de muitos preditores ao modelo, e esse é um pequeno viés de amostra. Em geral, as razões de chances logarítmicas de um modelo de regressão logística tendem a um fator tendencioso de devido à não colapsabilidade da razão de chances e contagem zero de células. Em inferência, isso é tratado usando regressão logística condicional para controlar variáveis de confusão e precisão em análises estratificadas. No entanto, na previsão, você é SooL. Não há previsão generalizável quando você tem p ≫ n π ( 1 - π ) , ( π = Prob ( Y = 1 )2 β p ≫ n π( 1 - π) π= Prob ( Y= 1 ) ) porque é garantido que você modelou os "dados" e não a "tendência" nesse momento. A previsão de alta dimensão ( grande ) de resultados binários é melhor realizada com métodos de aprendizado de máquina. Compreender a análise discriminante linear, mínimos quadrados parciais, previsão de vizinhos mais próximos, reforço e florestas aleatórias seria um bom ponto de partida.p
fonte
Em palavras simples ... um modelo de regressão logística com excesso de ajuste tem grande variação, significa que o limite da decisão muda amplamente para pequenas alterações na magnitude variável. considere a seguinte imagem como o modelo logístico mais adequado, seu limite de decisão tem um grande não. de altos e baixos, enquanto o meio está em boa forma, apresenta variação moderada e tendência moderada. o esquerdo está desajustado, tem alto viés, mas muito menos variação. mais uma coisa_ Um modelo de regressão sobreajustado tem muitos recursos, enquanto o modelo de underfit tem muito menos não. de recursos.
fonte
Você pode se ajustar demais a qualquer método, mesmo que se ajuste a toda a população (se a população for finita). Existem duas soluções gerais para o problema: (1) estimativa de máxima verossimilhança penalizada (regressão de crista, rede elástica, laço, etc.) e (2) o uso de priores informativos com um modelo bayesiano.
fonte
Existe algum modelo, deixe de lado a regressão logística, que não seja possível superajustar?
O excesso de ajuste surge fundamentalmente porque você se encaixa em uma amostra e não em toda a população. Os artefatos da sua amostra podem parecer características da população e não são, portanto, superdimensionados.
É semelhante a uma questão de validade externa. Usando apenas a amostra, você está tentando obter um modelo que ofereça o melhor desempenho na população real que você não pode ver.
Certamente, algumas formas ou procedimentos de modelos são mais propensos a superajustar do que outros, mas nenhum modelo é realmente imune a super ajuste, não é?
Mesmo a validação fora da amostra, os procedimentos de regularização, etc. podem apenas se proteger contra o excesso de ajuste, mas não há uma bala de prata. De fato, se alguém deveria estimar sua confiança em fazer uma previsão do mundo real com base em um modelo adequado, deve sempre assumir que algum grau de super adaptação foi realmente realizado.
Até que ponto pode variar, mas mesmo um modelo validado em um conjunto de dados de espera raramente produzirá um desempenho in-wild que corresponda ao que foi obtido no conjunto de dados de espera. E a super adaptação é um grande fator causal.
fonte
O que fazemos com o Roc para verificar o excesso de ajustes é separar o conjunto de dados aleatoriamente em treinamento e avaliação e comparar a AUC entre esses grupos. Se a AUC for "muito" (também não existe uma regra geral) maior no treinamento, pode haver sobreajuste.
fonte