Eu tenho um conjunto de dados que inclui um conjunto de clientes em diferentes cidades da Califórnia, o horário da chamada para cada cliente e o status da chamada (True se o cliente atender a chamada e False se o cliente não atender).
Preciso encontrar um horário adequado para ligar para futuros clientes, de modo que a probabilidade de atender a chamada seja alta. Então, qual é a melhor estratégia para esse problema? Devo considerar um problema de classificação quais são as horas (0,1,2, ... 23) das aulas? Ou devo considerar uma tarefa de regressão que o tempo é uma variável contínua? Como posso garantir que a probabilidade de atender a chamada seja alta?
Qualquer ajuda seria apreciada. Também seria ótimo se você me referisse a problemas semelhantes.
Abaixo está um instantâneo dos dados.
fonte
Respostas:
Você pode realmente encontrar problemas se modelar isso como um problema de regressão sem uma transformação adequada. Por exemplo, sabemos que a maioria das chamadas provavelmente é atendida durante o dia e menos durante a noite e de manhã cedo. Uma regressão linear teria dificuldade porque o relacionamento é provavelmente curvilíneo, não linear. Pelo mesmo motivo, tratar isso como uma tarefa de classificação com regressão logística também seria problemático.
Conforme sugerido por outros entrevistados, reclassificar seus dados em períodos de tempo ajudará, e eu sugiro que você tente algo como uma árvore de decisão ou floresta aleatória primeiro.
Dito isto, esse pode ser um caso para estatísticas descritivas simples. Se você planejar a proporção de chamadas atendidas por hora do dia (divididas por cidade ou qualquer outra demografia), há uma melhor hora clara ? Se sim, por que complicar as coisas com um modelo?
fonte
Você pode tentar o seguinte:
Além disso, recomendo adicionar recursos adicionais, como ocupação, sexo etc., pois os recursos listados na tabela (cidade etc.) são muito ambíguos e não fornecem muitas informações para diferenciar os clientes.
EDITADO conforme sugestão nos comentários:
Ao usar o modelo, cada lead seria classificado como prefers_morning = yes / no, prefers_noon = yes / no e prefers_evening = yes / no. Com base na hora do dia, por exemplo, pela manhã, o agente da central de atendimento (ou software) pode atender e ligar para os leads classificados no conjunto de preferências da manhã. Quando chega o meio-dia, o software de chamada é selecionado na lista de preferências do meio-dia e assim por diante.
fonte
Eu usaria uma regressão logística - você precisará de amostras onde elas não foram coletadas. Então trataria a hora como um regressor fictício sazonal (23 horas como variáveis fictícias e deixaria a pessoa fluir para a interceptação).
Se você não o tratar como um regressor fictício sazonal, será necessário realizar algum tipo de transformação, porque o relacionamento não será linear.
Alguém sugeriu anteriormente a substituição no meio da tarde etc. como uma variável categórica. Essa é uma péssima idéia, porque você tem os detalhes e está perdendo os detalhes lá. Isso teria um efeito semelhante ao utilizar o binning ideal para tornar o relacionamento linear, mas ainda não acho que isso funcionaria. Experimente os regressores fictícios sazonais.
fonte