Quartil ausente no boxplot

7

Atualmente, estou criando um gráfico de caixa. Sou novo no campo das estatísticas e, especialmente, das parcelas. Encontre a figura a seguir:insira a descrição da imagem aqui

No eixo y, encontre o número de mensagens. Tenho problemas para entender o que vejo lá. A plotagem é criada pelo Matlab automaticamente. Como eu sei, deve haver quatro quartis em um gráfico de caixa. Eu vejo lá apenas três. Provavelmente isso aconteceu devido ao valor da mediana (é a linha verde). Mas não sei o que isso significa se estiver faltando um quartil. Alguém por aqui pode explicar isso e me contar alguns detalhes, o que você pode ler da trama?

chris000r
fonte
Você seria melhor para a maioria dos propósitos com um histograma ou gráfico de pontos com uma lixeira para cada número inteiro. Nada impede você de desenhar a mediana e os quartis verticalmente ou sobrepostos. Entre várias outras limitações, esse projeto não fornece informações sobre as frequências de 12 14 16 18 20 como valores observados.
Nick Cox
Pergunta: parece que apenas números inteiros aparecem nos seus dados. É assim e se é por que isso acontece?
Nick Cox
Existem 3 quartis, não 4. Eles definem até 4 compartimentos (neste caso, menos).
Nick Cox
@NickCox o eixo y é um número de mensagens. Isso são dados de contagem e explica os números inteiros.
Bernhard
Claro, entendo isso, como mostra meu primeiro comentário, mas por que apenas números inteiros? Eu vejo 26 20 18 16 14 12 10 8 6 4 sendo mostrado. Alguns números inteiros ímpares podem estar ocultos pela caixa; caso contrário, isso parece um padrão.
Nick Cox

Respostas:

18

A mediana é provavelmente idêntica ao primeiro quartil, e é por isso que elas se sobrepõem. Isso costuma acontecer quando você tem uma grande proporção de valores idênticos e baixos no conjunto de dados. Aqui está um exemplo que reproduz esse padrão:

dat <- c(1,2,2,2,3,5,6)

median(dat)
## 2
quantile(dat, 0.25)
## 25% 
##  2 

boxplot(dat)

insira a descrição da imagem aqui Você pode ler uma introdução básica sobre como interpretar gráficos de caixas aqui . Embora, como Nick Cox aponte abaixo, sua discussão sobre o que é chamado de "outliers" seja falha e deva ser ignorada. Os outliers não devem ser excluídos, a menos que haja uma razão muito forte, como um erro claro de gravação de dados.

Observe também que um boxplot não é uma ótima maneira de exibir muitos conjuntos de dados. Concordo com a recomendação de Stephan Kolassa de um gráfico de calor de abelhas para pequenos conjuntos de dados e um gráfico de violino / densidade de núcleo para os maiores.

mkt - Restabelecer Monica
fonte
4
A fonte citada segue uma prática lamentavelmente comum de pontos de chamada que são mostrados individualmente pelos nomes outliers . Como mostra o gráfico da caixa aqui, esses pontos não são necessariamente discrepantes em nenhum outro sentido estatístico forte. É mais do que qual termo deve ser usado: muitas perguntas sobre o currículo - particularmente da “ciência de dados” - mostram que esses pontos devem ser excluídos antes de uma análise mais aprofundada.
Nick Cox
11
@NickCox Obrigado, concordo com esta crítica e deveria ter percebido isso antes de vincular a ela.
mkt - Restabelece Monica
9

A "caixa" em um boxplot se estende do primeiro ao terceiro quartil, ou seja, do 25º ao 75º percentil. Visualmente, isso significa que seu percentil 25 é de cerca de 6 mensagens e seu percentil 75 é de 8.

Além disso, os gráficos de caixa indicam a mediana (ou seja, o segundo quartil ou o 50º percentil) usando uma linha horizontal.

Obviamente, a mediana pode coincidir com um quartil. Boas implementações, portanto, usam uma cor ou tipo de linha diferente para a linha mediana. No presente caso, vemos que a linha horizontal inferior é verde. Obviamente, é plotado sobre a primeira linha do quartil. Portanto, este não é apenas o primeiro quartil, mas simultaneamente a mediana. Portanto, sua mediana também é de cerca de 6.

Você deve poder verificar isso com seus dados, calculando os quartis e a mediana.

Stephan Kolassa
fonte
3
(+1) Tudo começou, mas vi caixas plásticas para pequenas contagens inteiras serem mal interpretadas com tanta frequência - as pessoas não podem ou não querem pensar muito sobre laços e o que elas podem implicar - que eu costumo recomendar outra coisa.
Nick Cox
2
@ NickCox: muito verdadeiro. Normalmente, recomendo uma trama quente sobreposta ao boxplot se o número de pontos for "pequeno ou médio" e uma trama de violino se for "médio ou grande".
Stephan Kolassa 25/09/19