Estou construindo um modelo de propensão usando regressão logística para um cliente utilitário. Minha preocupação é que, do total da amostra, minhas contas 'ruins' sejam de apenas 5% e o restante seja bom. Estou prevendo 'ruim'.
- O resultado será enviesado?
- Qual é a proporção ótima de ruim para boa para construir um bom modelo?
Respostas:
Eu discordei das outras respostas nos comentários, então é justo que eu dê as minhas. SejaY a resposta (contas boas / ruins) e X sejam as covariáveis.
Para regressão logística, o modelo é o seguinte:
Pense em como os dados podem ser coletados:
Ambos estão bem para o modelo acima, como você só está modelando a distribuição de . Isso seria chamado de estudo prospectivo .Y| X
Alternativamente:
(Você também pode selecionar os dados com base em e em algumas variáveis de : este seria um estudo de controle de caso estratificado e é muito mais complicado de se trabalhar, por isso não vou entrar aqui).XY X
Existe um bom resultado da epidemiologia (ver Prentice e Pyke (1979) ) que, para um estudo de controle de caso, as estimativas de probabilidade máxima para podem ser encontradas por regressão logística, que está usando o modelo prospectivo para dados retrospectivos.β
Então, como isso é relevante para o seu problema?
Bem, isso significa que, se você for capaz de coletar mais dados, poderá apenas olhar para as contas incorretas e ainda usar a regressão logística para estimar os '(mas você precisará ajustar o para levar em conta o excesso de representação). Digamos que custa R $ 1 para cada conta extra; isso pode ser mais econômico do que simplesmente olhar para todas as contas. αβEu α
Por outro lado, se você já possui TODOS os dados possíveis, não há motivo para estratificar: você simplesmente jogaria fora os dados (fornecendo estimativas piores) e ficaria com o problema de tentar estimar .α
fonte
Assintoticamente, a proporção de padrões positivos para negativos é essencialmente irrelevante. O problema surge principalmente quando você tem poucas amostras da classe minoritária para descrever adequadamente sua distribuição estatística. Aumentar o conjunto de dados geralmente resolve o problema (sempre que possível).
Se isso não for possível, a melhor coisa a fazer é voltar a amostrar os dados para obter um conjunto de dados equilibrado e, em seguida, aplicar um ajuste multiplicativo à saída do classificador para compensar a diferença entre o conjunto de treinamento e as frequências relativas da classe operacional. Embora você possa calcular o fator de ajuste ideal (assintoticamente), na prática, é melhor ajustá-lo usando a validação cruzada (pois estamos lidando com um caso prático finito em vez de um caso assintótico).
Nesse tipo de situação, costumo usar um comitê de modelos, onde cada um é treinado em todos os padrões minoritários e uma amostra aleatória diferente dos padrões majoritários do mesmo tamanho que os padrões minoritários. Isso protege contra a má sorte na seleção de um único subconjunto dos padrões majoritários.
fonte
Em teoria, você será capaz de discriminar melhor se as proporções de "bom" e "ruim" forem aproximadamente similares em tamanho. Você pode avançar nessa direção por meio de amostragem estratificada, sobredimensionamento de casos ruins e, em seguida, reponderação para retornar às proporções verdadeiras posteriormente.
Isso traz alguns riscos. Em particular, é provável que seu modelo esteja rotulando os indivíduos como "potencialmente ruins" - presumivelmente aqueles que talvez não paguem suas contas de serviços públicos no vencimento. É importante que o impacto dos erros ao fazer isso seja reconhecido adequadamente: em particular quantos "bons clientes" serão rotulados de "potencialmente ruins" pelo modelo, e você terá menos probabilidade de errar na ponderação se não distorcer sua imagem. modelo por amostragem estratificada.
fonte
Agora importa que você tenha baixa proporção de falhas (contas incorretas)? Na verdade, desde que seus dados de amostra sejam equilibrados, como algumas pessoas já apontaram. No entanto, se seus dados não estiverem equilibrados, obter mais dados poderá ser quase inútil se houver alguns efeitos de seleção que você não está levando em consideração. Nesse caso, você deve usar a correspondência, mas a falta de equilíbrio pode tornar a correspondência bastante inútil. Outra estratégia é tentar encontrar um experimento natural, para que você possa usar variáveis instrumentais ou design de descontinuidade de regressão.
Por último, mas não menos importante, se você tiver uma amostra equilibrada ou se não houver viés de seleção, poderá estar preocupado com o fato de a conta incorreta ser rara. Não acho que 5% seja raro, mas, para o caso, dê uma olhada no artigo de Gary King sobre a execução de uma logística de eventos raros. No pacote Zelig, no R, você pode executar uma logística de eventos raros.
fonte
Ok, então eu trabalho na detecção de fraudes, para que esse tipo de problema não seja novo para mim. Acho que a comunidade de aprendizado de máquina tem muito a dizer sobre dados desequilibrados (como nas classes são desequilibrados). Então, existem algumas estratégias fáceis fáceis que eu acho que já foram mencionadas, e algumas idéias legais, e de alguma maneira lá fora. Não vou nem fingir saber o que isso significa para os assintóticos para o seu problema, mas parece sempre me dar resultados razoáveis na regressão logística. Pode haver um jornal lá em algum lugar, embora não tenha certeza.
Aqui estão as suas opções como eu a vejo:
De qualquer forma, usei todos esses métodos, mas acho que o mais simples é apenas re-ponderar o problema para a regressão logística de qualquer maneira. Uma coisa que você pode fazer para verificar o seu modelo é:
-Intercept/beta
Esse deve ser o limite de decisão (50% de probabilidade de estar em qualquer classe) em uma determinada variável ceteris paribus . Se não faz sentido, por exemplo, o limite de decisão é um número negativo em uma variável estritamente positiva, então você tem um viés na sua regressão logística que precisa ser corrigido.
fonte