Modelagem de rotatividade de clientes - Aprendizado de máquina versus modelos de risco / sobrevivência

9

É racional (teórico, substancial, estatístico) optar por modelos de aprendizado de máquina ou de risco ao modelar a rotatividade de clientes (ou mais gerais, ocorrências de eventos)?

majom
fonte
1
Os dois - por que você acha que eles são um ou outro?
EngrStudent
Aqui está um exemplo de aprendizado de máquina e análise de sobrevivência, ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=1603631 provavelmente mais. No IIRC, houve algum trabalho realizado na análise de sobrevivência com base em dados de microarranjos usando abordagens do tipo aprendizado de máquina (por exemplo, regularização de L1).
Dikran Marsupial
O professor Tibshirani é um ótimo exemplo de contrário à idéia "Aprendizado de máquina e modelos de risco não são comuns".
Cliff AB
3
Se você, por modelo de aprendizado de máquina, quer defini-lo como previsão binária, eu diria que se você tiver muitos dados e uma definição muito clara de rotatividade / sua consulta for uma consulta binária, então binário é o caminho a percorrer. Normalmente, esse não é o caso, então você deseja prever um risco. Desculpe se autopromoção, mas eu escrevi este artigo para responder a essa pergunta que eu tinha um ano atrás. Você também pode facilmente transformar modelos de risco em um problema de aprendizado de máquina, para que seja uma dicotomia falsa, conforme observado.
Ragulpr 01/02

Respostas:

10

Eu acho que sua pergunta poderia ser mais definida. A primeira distinção para modelos de rotatividade é entre criar

(1) um modelo binário (ou multi-classe, se houver vários tipos de rotatividade) para estimar a probabilidade de um cliente agitar dentro ou em um determinado ponto futuro (por exemplo, nos próximos 3 meses)

(2) um modelo de sobrevivência que cria uma estimativa do risco de atrito a cada período (digamos, a cada mês para o próximo ano)

Qual dos dois está correto para sua situação depende do uso do modelo. Se você realmente deseja entender o risco de atrito ao longo do tempo e talvez entender como as variáveis ​​(possivelmente variáveis ​​no tempo) interagem com o tempo, um modelo de sobrevivência é apropriado. Para muitos modelos de clientes, eu prefiro usar modelos discretos de risco de tempo para esse fim, porque o tempo geralmente é discreto nos bancos de dados e a estimativa de risco é uma probabilidade do evento. A regressão de Cox é outra opção popular, mas o tempo é tratado como contínuo (ou através de ajuste para empates), mas tecnicamente o risco não é uma probabilidade.

Para a maioria dos modelos de rotatividade, onde uma empresa está interessada em atingir aqueles x% de clientes em maior risco e o banco de dados é pontuado sempre que uma campanha de segmentação é iniciada, a opção binária (ou multi-classe) é normalmente o que é necessário.

A segunda opção é como estimar os modelos. Você usa um modelo estatístico tradicional, como regressão logística para o modelo binário (multi-classe) ou um algoritmo de aprendizado de máquina (por exemplo, floresta aleatória). A escolha é baseada em qual fornece o modelo mais preciso e em que nível de interpretabilidade é necessário. Para modelos discretos de risco de tempo, uma regressão logística é normalmente usada com splines para introduzir efeitos não lineares do tempo. Isso também pode ser feito com redes neurais e muitos outros tipos de algoritmos de ML, pois a configuração é simplesmente aprendizado supervisionado com um conjunto de dados "período de pessoa". Além disso, a regressão cox pode ser ajustada a algoritmos tradicionais como SAS proc phreg ou R coxph (). O algoritmo de aprendizado de máquina GBM também se encaixa na regressão cox com uma função de perda selecionada. Como já foi mencionado,

B_Miner
fonte
4
(+1) Embora eu pense que depende de mais coisas do que você menciona. A probabilidade prevista de rotatividade dentro de três meses pode ser lida em um modelo de sobrevivência, e se for um bom modelo que possa ser uma estimativa melhor do que uma do modelo ajustado apenas para o resultado binário da rotatividade após ou antes de três meses.
Scortchi - Reinstate Monica
1
Como prever uma probabilidade de rotatividade dentro de três meses usando uma floresta aleatória, regressão logística ou modelo C5.0? Isso é possível?
27617 Seanosapien
@Seanosapien, você pode levar seu conjunto de dados de interrupção com informações sobre quando cada usuário agitou e para cada usuário atribuir 1 se agitou antes de 3 meses e 0 se não agitou antes de 3 meses. Então você pode caber por exemplo, um modelo de regressão logística dos dados binários e probabilidades atribuir a novos usuários com base no modelo de ajuste
Kdawg
@Kdawg Thanks. Eu consegui descobrir uma maneira de projetar um conjunto de dados para modelar com a rotatividade em mente.
Seanosapien
-2

Antes de tudo, eu esclareceria exatamente onde você faz a distinção entre aprendizado de máquina e modelos de risco. Pelo meu entendimento, a literatura sobre ml faz distinção entre modelos paramétricos e não paramétricos (entre outros).

E segundo, para que você precisa do modelo? É para pesquisa científica ou algo mais? De qualquer forma, a escolha do modelo apropriado para descrever seus dados depende, em primeiro lugar, do que você precisa.

Para sua pergunta: depende de quanto você sabe sobre o processo de geração de dados.

Se, por exemplo, você usa o famoso coin flip ou die roll, você tem uma idéia muito boa sobre o processo que gera o resultado esperado de um experimento.

Nesse caso, você realmente deseja usar uma estimativa paramétrica (bayesiana ou freqüentista) porque eles fornecerão uma estimativa muito boa do parâmetro desconhecido. Além disso, esses modelos são muito bem compreendidos, o que tem muitas vantagens.

Se você não conhece o processo de geração de dados, ou não tem certeza, não terá muita escolha, precisará estimar os parâmetros que descrevem os dados a partir dos próprios dados. Se você decidir por essa abordagem, deverá aceitar que esses modelos tenham desvantagens (dependendo do modelo específico etc.)

Pelo meu entendimento, quanto menos você souber sobre um processo, mais precisará estimar a partir dos dados em si, que certamente terão um preço.

Vincent
fonte