Como interpretar um gráfico de caixa?

8

Eu tenho alguns dados nos quais existem 5 variáveis ​​explicativas categóricas ( concern, breath, weath, sleep, act) e 1 variável de resposta contínua ( tto). Além disso, todas as variáveis ​​explicativas categóricas são divididas em 5 níveis, que mostram quão forte a pessoa se sente em relação a ela. os níveis 1 e 5 mostram os estados perfeito e o pior, respectivamente.

Fui aconselhado a criar um gráfico de caixa para ver a relação entre as variáveis ​​explicativas e a variável de resposta. O gráfico é apresentado abaixo. No entanto, não sei ler um gráfico de caixa. Alguém pode me ajudar a interpretá-lo.

insira a descrição da imagem aqui

Günal
fonte
2
Você provavelmente leu o artigo da Wikipedia: en.wikipedia.org/wiki/Boxplot Você poderia explicar mais claramente o que não está entendendo?
Stephan Kolassa
Sim, eu tenho. Então eu conheço a equipe básica. No entanto, não sei como usá-los nisso. Quero dizer, existem muitas parcelas aqui e tenho que escolher os números importantes. Por exemplo, em todas as categorias acima, os gráficos do nível 5 são os mais longos. O que isso significa? Que efeito isso tem para eles? Outro exemplo seria por que existem muitos pontos? Eu sei que eles representam os valores atípicos, mas não sei como expandir este
Gunal
2
Uma questão relacionada que cobre as limitações do que você pode interpretar de um gráfico de caixa: duas distribuições com resumos idênticos de cinco números sempre terão a mesma forma?
Silverfish

Respostas:

10

A interpretação do gráfico de caixa (em alternativa, gráfico de caixa e bigode) baseia-se no entendimento de que fornece uma representação gráfica de um resumo de cinco números, ou seja, mínimo, 1º quartil, mediana, 3º quartil e máximo. A caixa abrange 50% das observações. As extremidades dos bigodes (linhas verticais que emanam da parte superior e inferior da caixa) geralmente mostram onde estão o mínimo e o máximo. No entanto, sempre que possível, existem discrepâncias (às vezes avaliadas com base no intervalo interquartil de 1,5 ), como pontos para sua figura.×

Pode ser útil observar um histograma ou gráficos de densidade em categorias específicas dos dados, pois isso pode ajudá-lo a entender o que o gráfico de caixa está dizendo.

@Glen_b indica, com razão, que a inclinação à esquerda é evidente e a tendência central para o quinto nível de força do sentimento é menor do que as outras. No entanto, é difícil ver se essa diferença seria estatisticamente significativa ou não.

t-student
fonte
8

Aqui está um resumo básico do que está lá:

  1. Todas as distribuições parecem inclinadas para a esquerda, "encravadas" contra o limite superior de 1.0, com muitos 'outliers' baixos seguindo para o fundo.
  2. A quinta categoria em cada parcela parece se sentar abaixo das outras. Às vezes, a quarta categoria também é baixa.
  3. Todas as cinco variáveis ​​(preocupação, respiração, respiração, sono, ato) parecem ter padrões amplamente semelhantes.
Glen_b -Reinstate Monica
fonte