Estou trabalhando na criação de um site, que exibe os dados do censo de um usuário selecionado Polygons e gostaria de mostrar graficamente a distribuição de vários parâmetros (um gráfico por parâmetro).
Os dados geralmente têm as seguintes propriedades:
- O tamanho da amostra tende a ser grande (digamos, cerca de 10.000 pontos de dados)
- O intervalo de valores tende a ser muito grande (por exemplo, a população mínima pode ser menor que 100 e o máximo pode ser algo como 500.000)
- q1 geralmente está próximo do mínimo (digamos 200), enquanto q2 e q3 estarão dentro de 10.000
- Não parece nada com uma distribuição normal
Eu não sou um estatístico e, portanto, minha descrição pode não ser exatamente clara.
Eu gostaria de mostrar essa distribuição em um gráfico, que será visto pelos cidadãos (o leigo, se você preferir).
Eu preferiria usar um histograma, mas isso não é possível devido à grande variedade de valores, devido aos quais fazer caixas não é realmente fácil e direto.
Pelo pouco que sei sobre estatísticas, um gráfico de caixa é o que é frequentemente usado para mostrar esse tipo de dados, mas acho que para um leigo decifrar o gráfico de caixa não é fácil.
Quais são minhas opções para mostrar esses dados de uma maneira fácil de entender?
fonte
Respostas:
Um boxplot não é tão complicado. Afinal, você só precisa calcular os três quartis e os mínimos e máximos que definem o intervalo; surge uma sutileza quando queremos desenhar os bigodes e vários métodos foram propostos. Por exemplo, em um box box de Tukey, valores fora de 1,5 vezes o inter-quartil do primeiro ou terceiro quartil seriam considerados outliers e exibidos como pontos simples. Veja também Métodos para apresentação de informações estatísticas: The Box Plot para uma boa visão geral , por Kristin Potter. O R software implementa uma regra ligeiramente diferente, mas o código fonte está disponível se você quiser estudá-lo (veja o
boxplot()
eboxplot.stats()
funções). No entanto, não é muito útil quando o interesse está em identificar valores extremos de uma distribuição muito distorcida (mas veja, Um boxplot ajustado para distribuições distorcidas , por Hubert e Vandervieren, CSDA 2008 52 (12)).No que diz respeito à visualização online, sugiro dar uma olhada no Protovis, que é uma caixa de ferramentas js sem plug-ins para exibições interativas na Web. A página de exemplos tem muito ilustrações do que pode ser alcançado com ela, em poucas linhas.
fonte
Você também pode querer dar uma olhada nos gráficos .
[ Fonte ]
Implementado no pacote R por Peter Kampstra.
fonte
Eu sugiro que você persista com histogramas. Eles são muito mais compreendidos do que as alternativas. Use uma escala de log para lidar com a grande variedade de valores. Aqui está um exemplo que eu preparei em alguns minutos no Stata:
admito que os rótulos numéricos do eixo x não eram totalmente diretos ou automáticos, mas, ao criar um site, tenho certeza de que suas habilidades de programação estão de acordo com as desafio!
fonte
Aqui está uma função matlab para plotar vários histogramas lado a lado em 2D como uma alternativa ao box-plot. Veja a imagem no topo. E aqui está outro
A faixa de densidade é outra alternativa ao gráfico de caixa. É uma faixa monocromática sombreada cuja escuridão em um ponto é proporcional à densidade de probabilidade da quantidade naquele ponto. Esta é uma implementação R da faixa de densidade
fonte
fonte
Se você tem como alvo a população em geral (ou seja, um público que não entende de estatística), concentre-se no colírio para os olhos e não na precisão estatística.
Esqueça os boxplots, muito menos os de violino (eu pessoalmente acho muito difícil de ler)! Se você perguntasse ao homem comum das ruas o que é um quantil, você obteria um silêncio de olhos arregalados ...
Você deve usar gráficos de barras, gráficos de bolhas, talvez alguns gráficos de pizza (brrrr). Esqueça as barras de erro (embora eu coloquei SD no texto em algum lugar onde aplicável).
Use cores, formas, linhas grossas, 3D. Você deve tornar cada gráfico único e imediatamente fácil de entender, mesmo sem ter que ler todas as legendas / eixos, etc. Faça um uso inteligente dos mapas, colorindo-os.
A informação é bonita é um recurso muito bom para obter idéias. Veja este gráfico, por exemplo: Cafeína e calorias : qualquer um pode entender, e é agradável aos olhos.
E, é claro, dê uma olhada no trabalho de Edward Tufte.
fonte
Eu mesmo gosto de tramas de violino , pois isso dá uma idéia da forma da distribuição. No entanto, se a grande variedade de valores é o problema, talvez seja melhor plotar o log dos dados em vez dos valores brutos, que escolheriam os tamanhos das caixas para histogramas etc. Como a exibição é para leigos, não mencione logs e marque os eixos 10, 100, 1000, 10000, 100000, 1000000 etc.
fonte