Estou tentando ajustar uma regressão logística em que há uma enorme diferença no número de pontos de dados em ambos os grupos (70 Vs 10.000). Um amigo estatístico meu me disse que esse é um problema conhecido com regressão logística e que, para esses tipos de números, superajusta os dados e basicamente não funciona. Quando compartilho os dados e comparo com o modelo, é bastante óbvio que esse é definitivamente o caso.
Gostaria de saber se alguém está ciente de um método melhor / mais flexível para ajustar esse tipo de dados de resposta binária?
(A propósito, eu não sou um estatístico, então vá comigo!)
modeling
logistic
binary-data
Stacey_bio
fonte
fonte
Respostas:
O fato de não funcionar não vem do tamanho desequilibrado dos grupos, mas da pequenez de um dos grupos. Reduzir a amostragem para o grupo maior é bom, mas não ajuda com o ajuste excessivo. (BTW, existe uma maneira fácil e elegante de corrigir as previsões do modelo de redução de amostragem, adicionando ± log (r) aos termos lineares em que r é a taxa de redução de amostragem.)
Se realmente o problema for o excesso de ajustes, você precisará diminuir o número de variáveis ou regularizar o modelo.
fonte
Esse problema aparece em praticamente todas as abordagens de classificação, seja regressão logística, classificação de vetores de suporte ou classificação de Naive Bayes. Existem dois problemas entrelaçados:
Um modelo treinado em um conjunto de dados desequilibrado pode se ajustar demais no sentido de adquirir um viés em favor da classe majoritária.
Ao avaliar esse modelo em um conjunto de dados de teste com o mesmo grau de desequilíbrio, a precisão da classificação pode ser uma medida de desempenho extremamente enganosa.
A literatura sobre essas questões apresentou três estratégias de solução:
Você pode restaurar o equilíbrio no treinamento definido subamostra a classe grande ou sobreamostrando a classe pequena, para evitar que ocorram preconceitos em primeiro lugar (consulte a resposta em @grotos).
Como alternativa, você pode modificar os custos de classificação incorreta para impedir que o modelo adquira uma polarização em primeiro lugar.
Uma salvaguarda adicional é substituir a precisão pela chamada precisão equilibrada . É definida como a média aritmética das precisões específicas da classe, onde e representam a precisão obtida em exemplos positivos e negativos, respectivamente. Se o classificador tiver um desempenho igualmente bom em qualquer uma das classes, esse termo reduzirá à precisão convencional (ou seja, o número de previsões corretas dividido pelo número total de previsões). Por outro lado, se a precisão convencional estiver acima do acaso, apenasπ+π-ϕ:=12(π++π−), π+ π− como o classificador tira proveito de um conjunto de testes desequilibrado, a precisão balanceada, conforme apropriado, cai para o acaso (veja o esboço abaixo, que tirei da minha resposta a uma pergunta relacionada ).
Conforme detalhado na minha resposta anterior, eu recomendaria considerar pelo menos duas das abordagens acima em conjunto. Por exemplo, você pode exagerar sua classe minoritária para impedir que seu classificador adquira um viés a favor da classe majoritária. Depois disso, ao avaliar o desempenho do seu classificador, você pode substituir a precisão pela precisão equilibrada.
fonte
Você quer dizer a distribuição da resposta, ou seja, você tem 70 casos de "SIM" e 10000 de "NÃO"?
Nesse caso, esse é um problema comum em aplicativos de mineração de dados. Imagine um banco de dados com 1.000.000 de instâncias, onde apenas cerca de 1.000 casos são "SIM". A taxa de resposta de 1% e menos ainda é comum em uma modelagem preditiva de negócios. E se você escolher uma amostra para treinar um modelo, isso é um grande problema, especialmente com a avaliação da estabilidade de um modelo.
O que fazemos é escolher uma amostra com diferentes proporções. No exemplo mencionado, seriam 1000 casos de "SIM" e, por exemplo, 9000 de casos "NÃO". Essa abordagem fornece modelos mais estáveis. No entanto, ele deve ser testado em uma amostra real (com 1.000.000 de linhas).
Eu testei com modelos de mineração de dados, como regressão logística, árvores de decisão, etc. No entanto, não o usei com modelos estatísticos "adequados" [1].
Você pode pesquisá-lo como "superamostragem nas estatísticas", o primeiro resultado é muito bom: http://www.statssa.gov.za/isi2009/ScientificProgramme/IPMS/1621.pdf
[1] "adequado" no sentido de "não mineração de dados".
fonte
Se você deseja uma técnica de classificação insensível à proporção relativa de exemplos de diferentes classes, as Máquinas de Vetor de Suporte têm essa propriedade, assim como as árvores de decisão.
fonte