Regras sobre “quando usar boxplot e quando barplot”

14

O gráfico de barras e bigodes e o gráfico de barras são gráficos apropriados para ANOVA, de acordo com The R Book (Crawley, 2013), mas qual é o mais apropriado ? Suponho que depende da situação ... alguém pode me ajudar?

Ladislav Naďo
fonte
5
" Embora um problema possa ser resolvido por vários testes alternativos - sempre há apenas um que é o mais apropriado para uso " - eu discordaria dessa frase; Eu não acho que é sempre verdade.
Glen_b -Reinstala Monica
5
Concordo com @Glen_b aqui e sugiro que mesmo essa redação perca o ponto principal. A identificação do teste mais apropriado depende minimamente do conhecimento do processo exato de geração dos dados, o que é, digamos, incomum. É mais comum que existam vários testes possíveis com diferentes vantagens e desvantagens.
Nick Cox
1
Eu acho que nem mencionaria testes (hipótese ou significância) em qualquer breve caracterização do bom pensamento estatístico ... Porém, acho que isso é uma questão paralela. Sua pergunta é clara o suficiente sem ela.
Nick # # # # # Cox Cox

Respostas:

18

Especificamente para ilustração gráfica da ANOVA:

  • Um gráfico de caixa ou gráfico de barras é muito melhor do que nada graficamente para ANOVA, mas, como comumente plotado, ambos são indiretos ou incompletos como um resumo gráfico.

  • ANOVA é sobre comparações de médias em um contexto de variações de um ou mais tipos; portanto, o gráfico mais apropriado mostraria, minimamente, meios e dados brutos. Desvios padrão do grupo (SDs) ou quantidades relacionadas não causariam danos.

  • =-+-1.5 IQR. Essa convenção pode ser útil para mostrar valores extremos brutos que podem ser problemáticos para a ANOVA, mas nem medianas nem quartis desempenham algum papel na ANOVA e se as medianas aproximam as médias é um ponto a ser verificado, não assumido. Geralmente, analistas de dados experientes consideram, por exemplo, outliers acentuados pronunciados e / ou assimetria de distribuição como um sinal de um problema que precisa de ação, como transformação dos dados ou necessidade de um modelo linear generalizado com uma função de vínculo sem identidade. No entanto, é surpreendente quantos livros didáticos e outras contas mostram gráficos de caixas quando uma ANOVA está sendo apresentada, mas não mencionam os elefantes que não estão na sala, os meios que não são plotados.

  • Por outro lado, o tipo mais comum de gráfico de barras nesse contexto resume os dados por meio de SDs ou erros padrão, mas omite qualquer exibição de pontos de dados individuais. Assim, por exemplo, valores extremos ou assimetria acentuada só podem ser inferidos a partir de médias fora de linha ou variabilidade inflada dentro de grupos individuais.

Geralmente, existem muitas sugestões de quais tipos de gráficos são úteis, mas há pouco consenso sobre quais são os melhores. Eu sugeriria como critério que um bom gráfico mostre

  • O padrão completo de variação nos dados, pelo menos como pano de fundo ou contexto

  • Resumos relevantes dos dados, especificamente aqueles relevantes para o modelo que está sendo entretido ou os descritores que estão sendo considerados

  • Indicações de possíveis problemas com os dados que põem em dúvida as suposições feitas.

Existem vários modelos que ajudam na ANOVA, como plotagens de pontos ou tiras com meios adicionais e SEs.

Este artigo de John Tukey explica a diferença entre gráficos de propaganda e gráficos analíticos que é pertinente aqui. Muitas ilustrações gráficas da ANOVA são gráficos de propaganda (veja! Os grupos são muito diferentes) sem muita análise (e o que mais podemos aprender sobre os dados ou as limitações da técnica nesta aplicação?).

Nick Cox
fonte
Então, que tal tramas de violino, idealmente com média, sd e outliers desenhados?
Ziggystar
Parcelas de violino podem ser úteis. Pessoalmente, prefiro algo mais próximo dos dados brutos, para que eu possa ver também a modalidade e a granularidade.
Nick Cox
8

Não se confunda entre gráficos de barras (uma barra é usada para mostrar cada quantidade de interesse) e gráficos de dinamite (uma barra mostra a média de cada grupo, mais as barras de erro). Os gráficos de dinamite NUNCA são aceitáveis ​​porque ocultam a distribuição dos dados sem motivo algum.

Sim, eu percebo que esse é de longe o tipo mais comum de trama. É um grande problema que reflete a (baixa) importância que os pesquisadores atribuem à forma de seus dados. Se você fosse um detetive procurando uma arma do crime, seria melhor se uma testemunha lhe dissesse 1) apenas a localização e o tamanho da arma? ou 2) a localização, tamanho e forma?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf

Lívido
fonte
Você tem outros recursos sobre por que as parcelas de dinamite não são ideais?
mguzmann
@mguzmann Desculpe, eu não. Também me perguntei quem teve a idéia, sua adoção ao longo do tempo, etc., e não conseguiu encontrar nada sobre isso. Eu imagino que ele tenha evoluído a partir de tabelas de relatórios com erro +/- nos dias anteriores aos computadores. Vi artigos da década de 1930 que conseguem publicar tabelas do conjunto de dados completo, por isso não tenho certeza de que a prática também tenha sido realmente justificada. Por exemplo: Hedrich AW. Estimativas mensais da população infantil "suscetível" ao sarampo, 1900-1931, Baltimore, Maryland. Am J Hyg 1933; 17: 613-636.
Lívio