Digamos que recebemos o seguinte problema:
Preveja quais clientes têm mais probabilidade de parar de comprar em nossa loja nos próximos três meses.
Para cada cliente, sabemos o mês em que um começou a comprar em nossa loja e, além disso, temos muitos recursos comportamentais em agregados mensais. O cliente 'mais velho' está comprando há cinquenta meses; vamos denotar o tempo desde que um cliente começou a comprar por ( ). Pode-se supor que o número de clientes seja muito grande. Se um cliente parar de comprar por três meses e depois voltar, ele será tratado como um novo cliente para que um evento (parar de comprar) possa ocorrer apenas uma vez.
Duas soluções me vêm à mente:
Regressão logística - para cada cliente e cada mês (talvez, exceto os três meses mais recentes), podemos dizer se um cliente parou de comprar ou não, para que possamos fazer amostras contínuas com uma observação por cliente e mês. Podemos usar o número de meses desde o início como uma variável categórica para obter algum equivalente da função de risco básico.
Modelo Cox estendido - Esse problema também pode ser modelado usando o modelo Cox estendido. Parece que esse problema é mais adequado à análise de sobrevivência.
Pergunta: Quais são as vantagens da análise de sobrevivência em problemas semelhantes? A análise de sobrevivência foi inventada por algum motivo, portanto deve haver alguma vantagem séria.
Meu conhecimento em análise de sobrevivência não é muito profundo e acho que as vantagens em potencial do modelo de Cox também podem ser alcançadas usando regressão logística.
- O equivalente do modelo estratificado de Cox pode ser obtido usando uma interação de e a variável estratificante.
- O modelo de interação de Cox pode ser obtido mergulhando a população em várias subpopulações e estimando a RL para cada subpopulação.
A única vantagem que vejo é que o modelo de Cox é mais flexível; por exemplo, podemos calcular facilmente a probabilidade de um cliente parar de comprar em 6 meses.
coxph
e obter estimativas de risco são íngremes e muitas.A análise de sobrevivência leva em consideração o fato de que cada cliente tem seu próprio tempo de entrada no estudo. O fato de o período de acompanhamento variar entre os clientes não é, portanto, um problema.
Observação : aqui está um artigo que mostra que, sob algumas restrições, tanto o modelo logístico quanto o de Cox estão vinculados.
fonte
A literatura de marketing sugere um Pareto / NBD aqui ou similar. Você basicamente assume que a compra - enquanto eles estão comprando - segue uma distribuição binomial negativa. Mas você precisa modelar o momento em que o cliente para. Essa é a outra parte.
Pete Fader e Bruce Hardie têm alguns documentos sobre isso, juntamente com Abe.
Existem várias abordagens mais simples para o Pareto / NBD, mesmo contando os vários trabalhos de Fader e Hardie. NÃO use a abordagem mais simples na qual se assume que a probabilidade de parar é constante a cada momento - isso significa que seus clientes mais pesados têm maior probabilidade de desistir mais cedo. É um modelo mais simples, mas errado.
Eu não uso um desses há algum tempo; desculpe ser um pouco inespecífico.
Aqui está uma referência ao artigo de Abe, que reformula esse problema como um Bayes hierárquico. . Se eu estivesse trabalhando nessa área novamente, acho que testaria essa abordagem.
fonte