Em relação à análise do carrinho de compras, acho que o principal objetivo é individualizar as combinações mais frequentes de produtos comprados pelos clientes. Eles association rules
representam a metodologia mais natural aqui (na verdade, eles foram realmente desenvolvidos para esse fim). A análise das combinações de produtos comprados pelos clientes e o número de vezes que essas combinações são repetidas leva a uma regra do tipo 'se condição e, em seguida, resulta' com uma medida de interesse correspondente. Você também pode considerar Log-linear models
para investigar as associações entre as variáveis consideradas.
Agora, quanto ao cluster, aqui estão algumas informações que podem ser úteis:
A princípio, considere Variable clustering
. O clustering variável é usado para avaliar a colinearidade, redundância e para separar variáveis em clusters que podem ser pontuados como uma única variável, resultando em redução de dados. Procure a varclus
função (pacote Hmisc em R)
Avaliação da estabilidade clusterwise: function clusterboot
{R package fpc}
Estatísticas baseadas em distância para validação de cluster: function cluster.stats
{R package fpc}
Como o mbq mencionou, use as larguras da silhueta para avaliar o melhor número de clusters. Veja isso . Em relação às larguras das silhuetas, consulte também a função optsil .
Estimar o número de clusters em um conjunto de dados por meio da estatística de gap
Para calcular índices de dissimilaridade e medidas de distância, consulte dsvdis e vegdist
O algoritmo de clustering EM pode decidir quantos clusters a serem criados por validação cruzada (se você não puder especificar previamente quantos clusters serão gerados). Embora seja garantido que o algoritmo EM converja para o máximo, esse é um máximo local e pode não ser necessariamente o mesmo que o máximo global. Para uma melhor chance de obter o máximo global, todo o procedimento deve ser repetido várias vezes, com estimativas iniciais diferentes para os valores dos parâmetros. O valor geral da probabilidade de log pode ser usado para comparar as diferentes configurações finais obtidas: basta escolher o maior dos máximos locais . Você pode encontrar uma implementação do clusterer EM no projeto de código aberto WEKA
Este também é um link interessante.
Também procure aqui porFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Por fim, você pode explorar os resultados do cluster usando o clusterfly