Estou tentando encontrar a melhor maneira de prever o valor do pagamento para uma agência de cobrança. A variável dependente é diferente de zero quando um pagamento foi feito. Compreensivelmente, há um número esmagador de zeros porque a maioria das pessoas não pode ser alcançada ou não pode pagar a dívida.
Há também uma correlação negativa muito forte entre o valor da dívida e a probabilidade de efetuar um pagamento. Normalmente, eu criaria um modelo logístico para prever a probabilidade de pagamento / não pagamento, mas isso tem a conseqüência infeliz de encontrar pessoas com os saldos mais baixos.
Existe uma maneira de combinar um modelo logístico de pagamento / não pagamento com um modelo separado que preveja o valor do pagamento?
regression
predictive-models
logistic
Zelazny7
fonte
fonte
Respostas:
A idéia de guiar o desenvolvimento de um modelo de dois estágios é o caminho certo a seguir, no entanto, é preciso considerar a dificuldade especial de sua configuração, que é a forte correlação negativa entre o valor da dívida e a probabilidade de efetuar um pagamento.
A questão principal da construção de um modelo de dois estágios aqui é que o segundo modelo (para previsão da dívida), quando construído apenas com base em "não zeros", é baseado em uma amostra não aleatória mais provável da população ( ou seja, todo o conjunto de dados), mas o modelo combinado deve ser aplicado a toda a população novamente. Isso significa que o segundo modelo terá que fazer previsões para partes dos dados nunca vistas antes, resultando em perda de precisão. Isso é chamado de Desvio de Seleção de Amostra (para uma visão geral da perspectiva do ML, recomendo Um Framework de Rede Bayesiano para Inferência de Rejeição de Smith e Elkan).
O KDD-Cup-98 tratou de uma questão semelhante, na qual se deve prever se é provável que um doador de uma organização de veteranos doe novamente e quanto é provável que doe. Nesse conjunto de dados, a probabilidade de doar novamente também estava correlacionada negativamente com a quantia esperada. O viés de seleção da amostra também apareceu.
A solução que mais me impressionou pode ser encontrada em Aprender e tomar decisões quando custos e probabilidades são desconhecidos por Bianca Zadrozny e Charles Elkan. Eles criaram uma solução sensível aos custos com base na correção de Heckman , que é do meu conhecimento a primeira abordagem sistemática para corrigir o viés de seleção (de amostra).
fonte
Essa é uma pergunta muito legal (+1).
Por que não tratar os 0s como se fossem NAs?
Você pode adicionar uma resposta simulada indicando se algum dinheiro foi recuperado ( ou seja, igual a 0 quando o valor for 0 e 1 quando o valor for positivo) e ajustar um modelo logístico nessa resposta binária com os mesmos preditores. Você ajustaria dois modelos: a resposta binária usando todos os pontos de dados e a resposta contínua usando apenas os pontos de dados não zeron (de acordo com a idéia de tratar 0 como NA).
Você ainda pode testar a nulidade dos parâmetros em cada modelo e calcular o ganho esperado usando os dois conjuntos de parâmetros.
fonte