Dados de fluxo de cliques em cluster

8

Recentemente, entrei no mundo do aprendizado de máquina e um projeto no qual estou trabalhando exige que eu agrupe os usuários com base na ordem em que eles visitaram as páginas da Web em um site. Eu tenho dados na forma de:

['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]

Onde cada número é uma categoria / página que o usuário visitou. Além disso, o comprimento dos dados para cada usuário não é o mesmo, ou seja, alguns usuários visitam mais páginas do que outros.

Sei que isso é realmente vago e que define semelhança difícil. Tentei seguir o exemplo deste trabalho de pesquisa e, para ser sincero, muito disso passou pela minha cabeça.

Preciso de ajuda para lidar com esse problema e estou aberto a novas idéias e sugestões.

Arjun Aletty
fonte

Respostas:

3

É uma boa pergunta com muitas aplicações práticas.

Como seus dados são seqüenciais, precisamos de uma medida de similaridade entre qualquer par de seqüências. Eu recomendo Levensthein distance, pois é muito intuitivo e muito bem definido. Veja também esta bela tese de bacharel com uma visão geral de mais medidas para dados seqüenciais.

Finalmente, se houver distâncias entre todos os pares de seqüências, podemos usar qualquer algoritmo de agrupamento que utilize uma matriz de distância como entrada (por exemplo, qualquer algoritmo hierárquico).

Miroslav Sabo
fonte
2

Você pode usar o clickstream do pacote ou o clickclust no idioma R. Ele executa exatamente o que você está procurando.

Sagar
fonte
2
Isso é realmente mais adequado como comentário do que como resposta.
Silverfish