Simplificando um pouco, tenho cerca de um milhão de registros que registram o tempo de entrada e saída das pessoas em um sistema que dura cerca de dez anos. Todo registro tem um horário de entrada, mas nem todo registro tem um horário de saída. O tempo médio no sistema é de ~ 1 ano.
Os horários de saída ausentes ocorrem por dois motivos:
- A pessoa não saiu do sistema no momento em que os dados foram capturados.
- O horário de saída da pessoa não foi registrado. Isso acontece por dizer 50% dos registros
As questões de interesse são:
- As pessoas estão gastando menos tempo no sistema e quanto menos tempo.
- Há mais tempos de saída sendo gravados e quantos.
Podemos modelar isso dizendo que a probabilidade de uma saída ser registrada varia linearmente com o tempo e que o tempo no sistema possui um Weibull cujos parâmetros variam linearmente com o tempo. Podemos então fazer uma estimativa de máxima probabilidade dos vários parâmetros e observar os resultados e considerá-los plausíveis. Escolhemos a distribuição Weibull porque ela parece ser usada na medição de vidas úteis e é divertido dizer em oposição a ajustar os dados melhor do que uma distribuição gama.
Onde devo procurar uma pista sobre como fazer isso corretamente? Nós somos um tanto matematicamente esclarecidos, mas não extremamente esclarecidos estatisticamente.
fonte
Você pode usar o modelo estimado para prever os horários de saída de todas as pessoas em seu sistema. Você pode comparar os tempos de saída estimados com os tempos de saída reais (onde você tem esses dados) e calcular uma métrica como o RMSE para avaliar o quão boas são suas previsões e, por sua vez, fornecer uma noção do ajuste do modelo. Veja também este link .
fonte