Distribuição de cauda longa de eventos de tempo

10

Suponha que você tenha os logs de um servidor da web. Nesses logs, você possui tuplas deste tipo:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Esses registros de data e hora representam, por exemplo, os cliques dos usuários. Agora, user1você visitará o site várias vezes (sessões) durante o mês e você terá rajadas de cliques de cada usuário durante cada sessão (supondo que, quando um usuário visitar o site, ele clicará em várias páginas).

Suponha que você queira particionar esses cliques nas sessões que os geraram, mas não possui nenhuma fonte adicional de informações, apenas a lista de carimbos de data e hora. Se você calcular a distribuição de intervalos entre dois cliques subsequentes do mesmo usuário, obterá uma distribuição de cauda longa. Intuitivamente, você procuraria por um "parâmetro de corte", por exemplo, N segundos, onde se timestamp_{i+1} - timestamp{i} > N, então, você timestamp_{i+1}é o início da nova sessão.

O problema é que essa distribuição, na realidade, é uma mistura de duas variáveis: X = "intervalo entre dois cliques subsequentes na mesma sessão" e Y = "intervalo entre o último clique da sessão anterior e o primeiro da nova".

A questão é: como estimar esse N, que divide as duas distribuições (com um pouco de sobreposição, possivelmente) apenas observando a explosão de cliques?

marcorossi
fonte
Quando você diz "apenas observando a explosão de cliques", você quer dizer que não consegue calcular nada além de N?
Jerad 23/11
Quero dizer que você não possui outras fontes de informação além das tuplas (usuário, registro de data e hora). O método baseado em limite (baseado em delta> N) é apenas um exemplo de método. Talvez outra coisa seja possível.
Marcorossi
Esse encadeamento pode ser do seu interesse: técnicas de clustering apropriadas para dados temporais .
gung - Restabelece Monica

Respostas:

2

Você realmente deve plotar o logaritmo dos intervalos entre cliques em vez dos valores brutos; isso achatará sua distribuição e poderá até revelar os vários modos da sua distribuição.

Abordagens mais avançadas foram desenvolvidas por neurocientistas para resolver um problema muito semelhante na identificação de surtos de picos neuronais. Este artigo clássico ou muitos outros artigos relacionados no google scholar .

jerad
fonte
Eu imprimi o loglog da distribuição. É uma linha plana. Como isso ajuda? O que você olharia? A referência para o artigo é ótima, obrigado.
Marcorossi
E o gráfico de probabilidade de log? ou seja, faça o registro apenas das frequências, não dos intervalos. Isso revela dois modos?
Jerad