É apropriado traçar a média em um histograma?

13

É "aceitável" adicionar uma linha vertical a um histograma para visualizar o valor médio?

Parece bom para mim, mas nunca vi isso em livros didáticos e coisas do gênero, então estou me perguntando se há algum tipo de convenção para não fazer isso?

O gráfico é para um trabalho final, eu só quero ter certeza de que não quebrei acidentalmente alguma regra de estatística tácita super importante. :)

Hóspede
fonte
Por que não. Apenas para adicionar um comentário. A média é um valor resumido como o histograma. Você pode variar o grau de informação fornecida, variando o tamanho do balde do histograma, por exemplo. No entanto, geralmente o histograma fornece mais informações do que apenas a média. Você pode aproximar o valor médio de um histograma. Eu acho que é por isso que eles geralmente não são fornecidos juntos.
Simone
Às vezes, vemos histogramas com uma distribuição sobreposta (por exemplo, mais comumente na minha experiência, a distribuição normal plotada usando a média da amostra e o desvio padrão). O que está fazendo a mesma coisa (e um pouco mais) como desenhar uma linha vertical (indicando onde a amostra significativo é, com o pico da curva).
James Stanley

Respostas:

30

Claro, por que não?

histograma com média

Aqui está um exemplo (uma das dezenas que encontrei com uma simples pesquisa no Google):

hist com média e mediana

(A fonte da imagem é o blog de usabilidade de medição, aqui .)

Eu já vi meios, meios mais ou menos um desvio padrão, vários quantis (como mediana, quartis, percentis 10 e 90) todos exibidos de várias maneiras.

Em vez de desenhar uma linha do outro lado do gráfico, você pode marcar as informações na parte inferior, como:

histograma com boxplot marginal

Há um exemplo (um de muitos encontrados) com um boxplot na parte superior e não na parte inferior, aqui .

Às vezes, as pessoas marcam nos dados:

gráfico de histograma com tremulação
(Eu tremi levemente os locais dos dados porque os valores foram arredondados para números inteiros e você não conseguiu ver bem a densidade relativa.)

Há um exemplo desse tipo, feito em Stata, nesta página (veja o terceiro aqui )

Os histogramas são melhores com um pouco de informação extra - eles podem enganar por conta própria

Você só precisa ter o cuidado de explicar em que consiste sua trama! (Você quer um título e um rótulo de eixo x melhores do que eu usei aqui, para iniciantes. Além de uma explicação em uma legenda explicando o que você marcou nela.)

-

Um último enredo:

histograma com stripchart

-

Minhas parcelas são geradas em R.

Editar:

Como @gung supôs, abline(v=mean...foi usado para desenhar a linha média no gráfico e rugpara desenhar os valores dos dados (embora eu realmente tenha usado rug(jitter(...porque os dados foram arredondados para números inteiros).

Aqui está uma maneira de fazer o boxplot entre o histograma e o eixo:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

Não vou listar para que serve tudo, mas você pode verificar os argumentos da ajuda ( ?boxplot) para descobrir para que servem e brincar com eles.

No entanto, não é uma solução geral - Eu não garanto que vai sempre trabalho, assim como ele faz aqui (nota que eu já mudou o ateboxwex opções *). Se você não escrever uma função inteligente para cuidar de tudo, é necessário prestar atenção no que tudo faz para garantir que esteja fazendo o que deseja.

Aqui está como criar os dados que eu usei (eu estava tentando mostrar como a regressão de Theil foi realmente capaz de lidar com vários outliers influentes). Por acaso eram dados com os quais eu estava jogando quando respondi a essa pergunta.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - um valor apropriado para até em torno de -0,5 vezes o valor de boxwex; isso seria um bom padrão se você escrever uma função para fazê-lo; boxwexprecisaria ser escalado de uma maneira que se relacione com a escala y (altura) do boxplot; Eu sugeriria de 0,04 a 0,05 vezes o limite superior de y, geralmente, pode ser bom.

Código para o stripchart marginal:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')
Glen_b -Reinstate Monica
fonte
+1, são legais; gostaria de adicionar o código? abline(v=mean(Davis2[,2]))& rug(Davis2[,2])Eu acho, mas como você cravou o boxplot lá?
gung - Restabelece Monica
1
@gung Veja a edição para obter detalhes breves, incluindo um exemplo reproduzível semelhante ao do boxplot. Realmente não está fazendo nada mais inteligente do que usar vários argumentos para a boxplotfunção. Entre boxplote boxpvocê pode fazer algumas coisas bacanas com pouco esforço.
Glen_b -Reinstala Monica
Sabedoria para todos os tempos: "Se você não escreve uma função inteligente para cuidar de tudo, é necessário prestar atenção no que tudo faz para garantir que está fazendo o que você quer" ;-).
gung - Restabelece Monica
Sim. Eu até pensei em escrever algo inteligente para definir ate boxwexassim por diante ... mas, na melhor das hipóteses, eu só faço alguns gráficos desse tipo por ano, e leva alguns segundos para digitar? Boxplot e definir as opções corretas. Achei que era mais fácil prestar atenção no que estou fazendo.
Glen_b -Reinstala Monica
@ gung eu editei para dar código para criar os dados do Davis2 que eu estava usando. Espero que ajude.
Glen_b -Reinstala Monica
3

Claro que você pode. Apenas certifique-se de identificar / indicar claramente o que a linha significa e evite deixar o gráfico muito "ocupado".

Nada é pior do que um gráfico que transmite muita informação para ser facilmente compreensível. A tabela é uma maneira geralmente negligenciada de exibir estatísticas resumidas de maneira clara e concisa.

TLJ
fonte
2

Respostas anteriores trazem excelentes pontos, mas aqui está um aspecto fundamental a ser adicionado.

A média é o centro de gravidade de uma distribuição e, portanto, o ponto de articulação de um histograma. É onde a distribuição seria equilibrada. Portanto, existe uma relação recíproca: não apenas a média pode ajudá-lo a pensar em um histograma, como também um histograma pode ajudá-lo a pensar sobre a média. Isso é ainda mais útil quando uma distribuição é distorcida e a média da distribuição não está necessariamente no meio.

Nick Cox
fonte
1

Não vejo nenhum problema com isso, vejo isso , isso e isso como exemplos.

RS18
fonte