Quais informações um Box Plot fornece que um Histograma não fornece?

13

Os histogramas dão uma boa noção da distribuição de uma variável. Box plots tentam fazer a mesma coisa, no entanto, não dão uma imagem tão boa da distribuição dessa variável.

Não entendo por que as pessoas usam gráficos de caixas. Os histogramas são melhores em todos os aspectos. Existe uma razão para eu usar os dois?

A única coisa que acho que os gráficos de caixa fornecem é: valores extremos! Diz-nos que observações podem ser discrepantes.

John
fonte
1
O histograma é pior em todos os aspectos do que uma representação de toda a distribuição?
Anthony Martin
2
Depende do que você deseja, com um gráfico de caixa, você pode ter alguns valores precisos (por exemplo, mediana, P75), que você não possui com um histograma. Ele exibe menos informações, mas é mais sintético. O que quero dizer é que mesmo um histograma é uma simplificação e um desperdício de informações em comparação com toda a distribuição. Mas pode ser mais fácil de usar
Anthony Martin
2
Um ponto de vista contrário sobre a utilidade dos histogramas foi claramente expresso e bem ilustrado na publicação altamente votada em stats.stackexchange.com/a/51753 (que pode ser encontrada na pesquisa em nosso site por "histograma").
whuber
3
Pensamento interessante - mas aumentar o tamanho da lixeira reduziria o histograma para uma figura semelhante a um gráfico de caixa, mantendo sua infeliz dependência da escolha dos pontos de corte. IMHO, os méritos reais dos boxplots podem ser melhor apreciados estudando o uso de Tukey do resumo da letra N para análise exploratória de dados multivariados e lembrando que ele estava calculando com lápis e papel na época. Para visualizações como um "traço esquemático errante", outros resumos univariados de respostas condicionais, como histogramas ou tramas de violino, simplesmente não funcionariam.
whuber
1
As duas falhas (imo) do histograma acontecem quando há poucas amostras ou quando as caixas têm o tamanho errado. A fraqueza de um bom boxplot (e estou pensando na variabilidade do JMP quando digo isso) são multi-modalidade e detalhes. Um lugar onde o boxplot brilha é quando há poucas amostras. Também gosto quando há várias variáveis ​​interagindo em níveis diferentes - portanto, o gráfico de variabilidade do JMP.
EngrStudent - Restabelece Monica

Respostas:

16

O fato de os gráficos de caixa fornecerem mais um resumo de uma distribuição também pode ser visto como uma vantagem em certos casos. Às vezes, quando estamos comparando distribuições, não nos preocupamos com a forma geral, mas com o local onde as distribuições se encontram. Plotar os quantis lado a lado pode ser uma maneira útil de fazer isso sem nos distrair com outros detalhes com os quais talvez não nos importemos.

dsaxton
fonte
1
Esta é a melhor resposta. Boxplots são melhores para comparar distribuições do que histogramas!
b Kjetil Halvorsen
14

No caso univariado, os gráficos de caixa fornecem algumas informações que o histograma não fornece (pelo menos, não explicitamente). Ou seja, normalmente fornece a mediana, percentil 25 e 75, min / max que não é discrepante e separa explicitamente os pontos considerados discrepantes. Tudo isso pode ser "ocular" a partir do histograma (e pode ser melhor ocular no caso de discrepâncias).

No entanto, a vantagem muito maior é comparar distribuições entre muitos grupos diferentes ao mesmo tempo. Com mais de 10 grupos, essa é uma tarefa cansativa com histogramas lado a lado, mas muito fácil com gráficos de caixas.

Como você mencionou, as parcelas de violino (ou parcelas de feijão) são alternativas um pouco mais informativas. No entanto, eles exigem um conhecimento estatístico um pouco mais do que os gráficos de caixa (ou seja, se apresentar a um público não estatístico, pode ser um pouco mais intimidador) e os gráficos de caixa existem há muito mais tempo do que os estimadores de densidade de kernel, daí sua maior popularidade.

Cliff AB
fonte
3
+1. Correção, porém, os gráficos de caixa fornecem medianas, não meios.
Greenparker
3
Todos podem estar certos. Os gráficos de caixa, como geralmente plotados, mostram medianas (vi isso negado, mas não me lembro de ver um exemplo). Mas algumas implementações permitem mostrar meios também. Isso costuma ser uma boa ideia.
Nick Cox
Obrigado por apontar isso. Eu continuo (incorretamente) pensando que geralmente é a média, o que pode levar a tramas muito estranhas em casos extremos.
Cliff AB
1
Seria bom se houvesse imagens para ir junto com isso para mostrar o valor de comparações lado a lado com os diagramas de caixa vs histogramas
Rudolf Olah
7
  1. Se eu lhe mostrar um histograma e perguntar onde está a mediana, você pode demorar um pouco para descobrir ... e então você só terá uma aproximação. Se eu fizer o mesmo com um boxplot, você o terá imediatamente; se é nisso que você está interessado, os boxplots obviamente vencem.

  2. Concordo que os boxplots não são tão eficazes quanto uma descrição da distribuição de uma única amostra, pois a reduzem para alguns pontos e isso não diz muito.

    No entanto, se você estiver comparando muitas dezenas de distribuições, ter todos os detalhes de cada uma pode ser mais informações do que as facilmente comparáveis ​​- você pode reduzir as informações para um número menor de itens a serem comparados.

  3. Se mais informações forem melhores, há muitas opções melhores que o histograma; um gráfico de caule e folhas, por exemplo, ou um gráfico de ecdf / quantil.

    Ou você pode adicionar informações a um histograma:

histograma com boxplot marginal gráfico de histograma com tremulação histograma com stripchart

(gráficos desta resposta )

A primeira delas - adicionar um boxplot estreito à margem - oferece todos os benefícios a serem obtidos em qualquer exibição.

Glen_b -Reinstate Monica
fonte
1

Os gráficos de barras fornecem apenas o intervalo de frequência das observações, enquanto os gráficos de caixa são melhores em dizer onde estão vários parâmetros de uma distribuição, exemplo de média e variações que os gráficos de barras não podem. Os gráficos de caixa são, portanto, usados ​​como uma ferramenta comparativa eficaz, se houver várias distribuições.

Shiv_90
fonte
É raro um boxplot exibir uma média - quase sempre eles usam medianas - e nunca representam variações diretamente. Observe também que essas quantidades geralmente não são consideradas "parâmetros de uma distribuição": são estatísticas descritivas para um lote de dados .
whuber
Exatamente, eles são uma boa ferramenta para descrever uma distribuição sem fazer muitos cálculos. E exibem mais medianas e, como em muitos casos as duas medidas coincidem, os gráficos de caixa também são uma boa ferramenta para aproximar a média.
Shiv_90
Seu comentário parece continuar confundindo os dados com a distribuição subjacente . É muito raro a média igualar a mediana em qualquer lote de dados. Além disso, um dos usos melhores e mais comuns do boxplot é identificar a assimetria, o que geralmente implica uma diferença importante entre média e mediana. Um dos princípios fundamentais por trás da concepção original do boxplot é que ele é uma ferramenta exploratória robusta - o que implica que é melhor não se basear em estatísticas sensíveis, como média ou variância.
whuber