Suponha que você tenha os logs de um servidor da web. Nesses logs, você possui tuplas deste tipo:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
Esses registros de data e hora representam, por exemplo, os cliques dos usuários. Agora, user1
você visitará o site várias vezes (sessões) durante o mês e você terá rajadas de cliques de cada usuário durante cada sessão (supondo que, quando um usuário visitar o site, ele clicará em várias páginas).
Suponha que você queira particionar esses cliques nas sessões que os geraram, mas não possui nenhuma fonte adicional de informações, apenas a lista de carimbos de data e hora. Se você calcular a distribuição de intervalos entre dois cliques subsequentes do mesmo usuário, obterá uma distribuição de cauda longa. Intuitivamente, você procuraria por um "parâmetro de corte", por exemplo, N segundos, onde se timestamp_{i+1} - timestamp{i} > N
, então, você timestamp_{i+1}
é o início da nova sessão.
O problema é que essa distribuição, na realidade, é uma mistura de duas variáveis: X = "intervalo entre dois cliques subsequentes na mesma sessão" e Y = "intervalo entre o último clique da sessão anterior e o primeiro da nova".
A questão é: como estimar esse N, que divide as duas distribuições (com um pouco de sobreposição, possivelmente) apenas observando a explosão de cliques?
fonte
Respostas:
Você realmente deve plotar o logaritmo dos intervalos entre cliques em vez dos valores brutos; isso achatará sua distribuição e poderá até revelar os vários modos da sua distribuição.
Abordagens mais avançadas foram desenvolvidas por neurocientistas para resolver um problema muito semelhante na identificação de surtos de picos neuronais. Este artigo clássico ou muitos outros artigos relacionados no google scholar .
fonte