Modelo de Cox vs regressão logística

15

Digamos que recebemos o seguinte problema:

Preveja quais clientes têm mais probabilidade de parar de comprar em nossa loja nos próximos três meses.
Para cada cliente, sabemos o mês em que um começou a comprar em nossa loja e, além disso, temos muitos recursos comportamentais em agregados mensais. O cliente 'mais velho' está comprando há cinquenta meses; vamos denotar o tempo desde que um cliente começou a comprar por t ( t[0,50] ). Pode-se supor que o número de clientes seja muito grande. Se um cliente parar de comprar por três meses e depois voltar, ele será tratado como um novo cliente para que um evento (parar de comprar) possa ocorrer apenas uma vez.

Duas soluções me vêm à mente:

Regressão logística - para cada cliente e cada mês (talvez, exceto os três meses mais recentes), podemos dizer se um cliente parou de comprar ou não, para que possamos fazer amostras contínuas com uma observação por cliente e mês. Podemos usar o número de meses desde o início como uma variável categórica para obter algum equivalente da função de risco básico.

Modelo Cox estendido - Esse problema também pode ser modelado usando o modelo Cox estendido. Parece que esse problema é mais adequado à análise de sobrevivência.

Pergunta: Quais são as vantagens da análise de sobrevivência em problemas semelhantes? A análise de sobrevivência foi inventada por algum motivo, portanto deve haver alguma vantagem séria.

Meu conhecimento em análise de sobrevivência não é muito profundo e acho que as vantagens em potencial do modelo de Cox também podem ser alcançadas usando regressão logística.

  • O equivalente do modelo estratificado de Cox pode ser obtido usando uma interação de e a variável estratificante. t
  • O modelo de interação de Cox pode ser obtido mergulhando a população em várias subpopulações e estimando a RL para cada subpopulação.

A única vantagem que vejo é que o modelo de Cox é mais flexível; por exemplo, podemos calcular facilmente a probabilidade de um cliente parar de comprar em 6 meses.

Tomek Tarczynski
fonte

Respostas:

10

O problema com o modelo de Cox é que ele não prevê nada. A "interceptação" (função de risco de linha de base) nos modelos de Cox nunca é realmente estimada. A regressão logística pode ser usada para prever o risco ou a probabilidade de algum evento, neste caso: se um sujeito entra ou não para comprar algo em um mês específico.

O problema com as suposições por trás da regressão logística comum é que você trata cada observação pessoa-mês como independente, independentemente de ser a mesma pessoa ou o mesmo mês em que as observações ocorreram. Isso pode ser perigoso, porque alguns itens são comprados em intervalos de dois meses; portanto, observações consecutivas de pessoa a mês são negativamente correlacionadas. Como alternativa, um cliente pode ser retido ou perdido por experiências boas ou ruins, levando a pessoa consecutiva a observar as observações mensais, sendo correlacionadas positivamente .

Acho que um bom começo para esse problema de previsão é adotar a abordagem de previsão, onde podemos usar informações anteriores para informar nossas previsões sobre os negócios do próximo mês. Um simples começo para este problema está se ajustando para um efeito desfasado, ou um indicador de se um assunto tinha chegado no último mês, como preditor de saber se eles podem chegar este mês.

AdamO
fonte
2
Uma regressão logística multinível não poderia ser usada aqui para resolver a questão da independência? O nível 2 seria clientes e o nível 1 seria medidas repetidas ao longo do tempo.
Instinto
11
@AdamO, a interceptação pode ser estimada e, combinada com a previsão do risco parcial do indivíduo, podemos criar curvas de sobrevivência individuais. Não sei por que você acha que o modelo de Cox pode prever "nada".
Cam.Davidson.Pilon
@ Cam.Davidson.Pilon a estimativa da função de risco de linha de base é um procedimento auxiliar (função de etapa de Breslow) que deve ser feito secundário ao modelo de Cox. Além disso, há divergências quanto ao cálculo dos limites de incerteza, pois a covariância entre a estimativa de risco cumulativo e os parâmetros do modelo não é clara. O método com independência assumida e os limites de Hall e Wellner são o que eu uso.δ
AdamO 25/09
Para fins de previsão, acho que esses não são bloqueadores. Não é incomum combinar várias estimativas para criar uma única previsão e (infelizmente e não estou defendendo isso) os intervalos de previsão não são comumente usados ​​ou disponíveis.
Cam.Davidson.Pilon
@ Cam.Davidson.Pilon Eu não disse que as previsões de risco não podem ser obtidas a partir de dados de sobrevivência, eu disse que os modelos de Cox não prevêem risco. As etapas entre ligar coxphe obter estimativas de risco são íngremes e muitas.
AdamO 25/09
3

TjjPr(Tj>3)j3 meses.

A análise de sobrevivência leva em consideração o fato de que cada cliente tem seu próprio tempo de entrada no estudo. O fato de o período de acompanhamento variar entre os clientes não é, portanto, um problema.

j


Observação : aqui está um artigo que mostra que, sob algumas restrições, tanto o modelo logístico quanto o de Cox estão vinculados.

ocram
fonte
Obrigado pela resposta. Se o SA manipular adequadamente a censura, isso implica que a solução LR não manipula a censura corretamente. Como pode resultar? Ainda não consigo me convencer de que o SA é melhor para uma meta de tempo fixo. Posso encontrar em algum lugar este artigo gratuitamente?
Tomek Tarczynski
Y=0
Meu e-mail é: [email protected] Muito obrigado!
Tomek Tarczynski 04/04
@TomekTarczynski: recebeu?
Ocram
Sim, obrigado novamente! Amanhã terei tempo para ler com mais atenção. Acabei de ler e se entendi corretamente, ele resolve um problema ligeiramente diferente. Usando a analogia da loja, ele compara LR e COX ao problema "Qual é a probabilidade de o cliente não ser mais cliente após um número fixo de meses desde o início?"
Tomek Tarczynski
2

A literatura de marketing sugere um Pareto / NBD aqui ou similar. Você basicamente assume que a compra - enquanto eles estão comprando - segue uma distribuição binomial negativa. Mas você precisa modelar o momento em que o cliente para. Essa é a outra parte.

Pete Fader e Bruce Hardie têm alguns documentos sobre isso, juntamente com Abe.

Existem várias abordagens mais simples para o Pareto / NBD, mesmo contando os vários trabalhos de Fader e Hardie. NÃO use a abordagem mais simples na qual se assume que a probabilidade de parar é constante a cada momento - isso significa que seus clientes mais pesados ​​têm maior probabilidade de desistir mais cedo. É um modelo mais simples, mas errado.

Eu não uso um desses há algum tempo; desculpe ser um pouco inespecífico.

Aqui está uma referência ao artigo de Abe, que reformula esse problema como um Bayes hierárquico. . Se eu estivesse trabalhando nessa área novamente, acho que testaria essa abordagem.

zbicyclist
fonte