Estou com dificuldades para selecionar a maneira correta de visualizar dados. Digamos que temos livrarias que vendem livros , e todo livro tem pelo menos uma categoria .
Para uma livraria, se contarmos todas as categorias de livros, adquirimos um histograma que mostra o número de livros que se enquadram em uma categoria específica para essa livraria.
Quero visualizar o comportamento da livraria, quero ver se eles favorecem uma categoria em detrimento de outras categorias. Não quero ver se eles estão favorecendo a ficção científica todos juntos, mas quero ver se estão tratando todas as categorias igualmente ou não.
Eu tenho ~ 1 milhão de livrarias.
Eu pensei em 4 métodos:
Prove os dados, mostre apenas 500 histogramas da livraria. Mostre-os em 5 páginas separadas usando a grade 10x10. Exemplo de uma grade 4x4:
Igual ao nº 1. Porém, desta vez, classifique os valores do eixo x de acordo com a contagem decrescente; portanto, se houver um favor, ele será visto facilmente.
Imagine juntar os histogramas no 2 como um baralho e mostrá-los em 3D. Algo assim:
Em vez de usar o terceiro eixo processando cores para representar cores, use um mapa de calor (histograma 2D):
se geralmente as livrarias preferem algumas categorias a outras, ele será exibido como um bom gradiente da esquerda para a direita.
Você tem outras idéias / ferramentas de visualização para representar vários histogramas?
fonte
Respostas:
Como você descobriu, não há respostas fáceis para sua pergunta!
Presumo que você esteja interessado em encontrar livrarias estranhas ou diferentes? Se esse for o caso, você poderá tentar coisas como PCA (consulte a página de análise de cluster da wikipedia para obter mais detalhes).
Para lhe dar uma ideia, considere este exemplo. Você tem 26 livrarias (com os nomes A, B, .. Z). Todas as livrarias são semelhantes, exceto:
Uma parcela dos componentes principais destaca essas lojas para uma investigação mais aprofundada.
Aqui está um exemplo de código R:
Isso fornece o seguinte gráfico:
Gráfico de PCA http://img265.imageshack.us/img265/7263/tmplx.jpg
Notar que:
Outras possibilidades
Você também pode olhar para o GGobi , eu nunca o usei, mas parece interessante.
fonte
Eu sugeriria algo que não tem um nome definido (provavelmente "plot paralelo") e se parece com isso:
Basicamente, você plota todas as contagens de todas as livrarias como pontos nas categorias listadas no eixo xe conecta os resultados de cada livraria a uma linha. Ainda assim, isso pode estar muito confuso para linhas de 1 milhão. O conceito vem de GGobi, que já foi mencionado por csgillespie.
fonte