Atualmente, estou criando um gráfico de caixa. Sou novo no campo das estatísticas e, especialmente, das parcelas. Encontre a figura a seguir:
No eixo y, encontre o número de mensagens. Tenho problemas para entender o que vejo lá. A plotagem é criada pelo Matlab automaticamente. Como eu sei, deve haver quatro quartis em um gráfico de caixa. Eu vejo lá apenas três. Provavelmente isso aconteceu devido ao valor da mediana (é a linha verde). Mas não sei o que isso significa se estiver faltando um quartil. Alguém por aqui pode explicar isso e me contar alguns detalhes, o que você pode ler da trama?
descriptive-statistics
boxplot
chris000r
fonte
fonte
Respostas:
A mediana é provavelmente idêntica ao primeiro quartil, e é por isso que elas se sobrepõem. Isso costuma acontecer quando você tem uma grande proporção de valores idênticos e baixos no conjunto de dados. Aqui está um exemplo que reproduz esse padrão:
Você pode ler uma introdução básica sobre como interpretar gráficos de caixas aqui . Embora, como Nick Cox aponte abaixo, sua discussão sobre o que é chamado de "outliers" seja falha e deva ser ignorada. Os outliers não devem ser excluídos, a menos que haja uma razão muito forte, como um erro claro de gravação de dados.
Observe também que um boxplot não é uma ótima maneira de exibir muitos conjuntos de dados. Concordo com a recomendação de Stephan Kolassa de um gráfico de calor de abelhas para pequenos conjuntos de dados e um gráfico de violino / densidade de núcleo para os maiores.
fonte
A "caixa" em um boxplot se estende do primeiro ao terceiro quartil, ou seja, do 25º ao 75º percentil. Visualmente, isso significa que seu percentil 25 é de cerca de 6 mensagens e seu percentil 75 é de 8.
Além disso, os gráficos de caixa indicam a mediana (ou seja, o segundo quartil ou o 50º percentil) usando uma linha horizontal.
Obviamente, a mediana pode coincidir com um quartil. Boas implementações, portanto, usam uma cor ou tipo de linha diferente para a linha mediana. No presente caso, vemos que a linha horizontal inferior é verde. Obviamente, é plotado sobre a primeira linha do quartil. Portanto, este não é apenas o primeiro quartil, mas simultaneamente a mediana. Portanto, sua mediana também é de cerca de 6.
Você deve poder verificar isso com seus dados, calculando os quartis e a mediana.
fonte