Atualmente, estou analisando um site que exige a criação de um diagrama em árvore de decisão que mostre a rota provável que as pessoas seguem sempre que chegam ao site. Estou lidando com um data.frame
que mostra os caminhos de todos os clientes para o site, começando na página inicial. Por exemplo, um cliente pode seguir o seguinte caminho:
Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3
para que esse cliente tenha uma jornada de três páginas. O que quero tentar fazer no R é combinar todos os caminhos dos clientes e, assim, atribuir uma probabilidade a um cliente seguindo um determinado caminho no site. Por exemplo, se eu examinasse todos os caminhos, poderia descobrir que 34% das pessoas que chegam à página inicial vão para a "página de itens de cozinha". R tem esse recurso?
Procurei métodos diferentes nos pacotes rpart e partykit , mas eles não pareciam ser de nenhuma ajuda.
Qualquer direção na direção certa é muito apreciada!
fonte
igraph
pacote parece ser bastante abrangente.Respostas:
Sua primeira pergunta já foi respondida por isso: "Qual a porcentagem de usuários na página inicial (por exemplo, página 1) viaja ao lado de, por exemplo, Itens de cozinha (por exemplo, página 2)?"
Ou isso é muito simplista?
fonte
Parece que você está tentando recriar o algoritmo PageRank do Google. A maior parte do algoritmo PageRank foi desenvolvida usando cadeias de Markov. Você pode encontrar muitas menções sobre o desenvolvimento de métodos PageRank no R.
igraph.sourceforge.net/doc/R/page.rank.htm
fonte
Pelo que vejo aqui, concordo que igraphs / Markov Chains é provavelmente o caminho a seguir, no entanto, você definitivamente pode usar o rpart e / ou o partykit.
É difícil para mim dar uma resposta simples com seu exemplo limitado, mas geralmente posso explicar como você faria isso.
Você quer ver onde todos os seus usuários estiveram e resumir isso em uma sequência, por exemplo
Você pode segmentar seus usuários em categorias, digamos aqueles que acabaram na página "compre agora" e outros que não. Então você pode simplesmente começar a prever esse resultado terminal. Neste exemplo, talvez você descubra que as pessoas que fizeram mais comparações compraram / não compraram algo.
Você também pode criar mais variáveis, como "qual era a página antes da página de compra" "quantas páginas eles visitaram antes de comprar algo" ou "quando eles criaram sua primeira conta" e você pode adicionar essas métricas à sua análise.
Você pode seguir várias maneiras diferentes, e isso começa a responder a perguntas diferentes, mas o que quero dizer é que você pode usar as árvores e, para alguns problemas, pode ser um caminho mais rápido e simples para obter informações.
A propósito, você precisaria criar fatores de variáveis não numéricas usando
factor
ouas.factor
, se você for usar a parte. O Party tem algumas vinhetas legais para você começar.fonte