Os histogramas dão uma boa noção da distribuição de uma variável. Box plots tentam fazer a mesma coisa, no entanto, não dão uma imagem tão boa da distribuição dessa variável.
Não entendo por que as pessoas usam gráficos de caixas. Os histogramas são melhores em todos os aspectos. Existe uma razão para eu usar os dois?
A única coisa que acho que os gráficos de caixa fornecem é: valores extremos! Diz-nos que observações podem ser discrepantes.
Respostas:
O fato de os gráficos de caixa fornecerem mais um resumo de uma distribuição também pode ser visto como uma vantagem em certos casos. Às vezes, quando estamos comparando distribuições, não nos preocupamos com a forma geral, mas com o local onde as distribuições se encontram. Plotar os quantis lado a lado pode ser uma maneira útil de fazer isso sem nos distrair com outros detalhes com os quais talvez não nos importemos.
fonte
No caso univariado, os gráficos de caixa fornecem algumas informações que o histograma não fornece (pelo menos, não explicitamente). Ou seja, normalmente fornece a mediana, percentil 25 e 75, min / max que não é discrepante e separa explicitamente os pontos considerados discrepantes. Tudo isso pode ser "ocular" a partir do histograma (e pode ser melhor ocular no caso de discrepâncias).
No entanto, a vantagem muito maior é comparar distribuições entre muitos grupos diferentes ao mesmo tempo. Com mais de 10 grupos, essa é uma tarefa cansativa com histogramas lado a lado, mas muito fácil com gráficos de caixas.
Como você mencionou, as parcelas de violino (ou parcelas de feijão) são alternativas um pouco mais informativas. No entanto, eles exigem um conhecimento estatístico um pouco mais do que os gráficos de caixa (ou seja, se apresentar a um público não estatístico, pode ser um pouco mais intimidador) e os gráficos de caixa existem há muito mais tempo do que os estimadores de densidade de kernel, daí sua maior popularidade.
fonte
Se eu lhe mostrar um histograma e perguntar onde está a mediana, você pode demorar um pouco para descobrir ... e então você só terá uma aproximação. Se eu fizer o mesmo com um boxplot, você o terá imediatamente; se é nisso que você está interessado, os boxplots obviamente vencem.
Concordo que os boxplots não são tão eficazes quanto uma descrição da distribuição de uma única amostra, pois a reduzem para alguns pontos e isso não diz muito.
No entanto, se você estiver comparando muitas dezenas de distribuições, ter todos os detalhes de cada uma pode ser mais informações do que as facilmente comparáveis - você pode reduzir as informações para um número menor de itens a serem comparados.
Se mais informações forem melhores, há muitas opções melhores que o histograma; um gráfico de caule e folhas, por exemplo, ou um gráfico de ecdf / quantil.
Ou você pode adicionar informações a um histograma:
(gráficos desta resposta )
A primeira delas - adicionar um boxplot estreito à margem - oferece todos os benefícios a serem obtidos em qualquer exibição.
fonte
Os gráficos de barras fornecem apenas o intervalo de frequência das observações, enquanto os gráficos de caixa são melhores em dizer onde estão vários parâmetros de uma distribuição, exemplo de média e variações que os gráficos de barras não podem. Os gráficos de caixa são, portanto, usados como uma ferramenta comparativa eficaz, se houver várias distribuições.
fonte