Como avaliar a assimetria de um boxplot?

19

Como decidir a assimetria observando um boxplot construído com esses dados:

340, 300, 520, 340, 320, 290, 260, 330

Um livro diz: "Se o quartil inferior estiver mais distante da mediana do que o quartil superior, a distribuição será distorcida negativamente". Várias outras fontes disseram mais ou menos o mesmo.

Eu construí um boxplot usando R. É o seguinte:

box-plot

Entendo que ele está distorcido negativamente , porque o quartil inferior está mais distante da mediana do que o quartil superior. Mas o problema é quando eu uso outro método para determinar a assimetria:

média (337,5)> mediana (325)

Isso indica que os dados estão inclinados positivamente . Perdi algo?

JerryW
fonte

Respostas:

19

Uma medida da assimetria é baseada na mediana média - o segundo coeficiente de assimetria de Pearson .

Outra medida de assimetria é baseada nas diferenças relativas dos quartis (Q3-Q2) vs (Q2-Q1) expressas como uma razão

você=0,25

A medida mais comum é, obviamente , a distorção do terceiro momento .

Não há razão para que essas três medidas sejam necessariamente consistentes. Qualquer um deles pode ser diferente dos outros dois.

O que consideramos "distorção" é um conceito um tanto escorregadio e mal definido. Veja aqui para mais discussão.

Se analisarmos seus dados com um qqplot normal:

insira a descrição da imagem aqui

[A linha marcada lá é baseada apenas nos 6 primeiros pontos, porque quero discutir o desvio dos dois últimos do padrão lá.]

Vemos que os menores 6 pontos estão quase perfeitamente na linha.

Então o sétimo ponto fica abaixo da linha (mais próximo do meio, em relação ao segundo ponto correspondente da extremidade esquerda), enquanto o oitavo ponto fica bem acima.

O sétimo ponto sugere leve inclinação para a esquerda, o último, forte para a direita. Se você ignorar um dos pontos, a impressão de assimetria é inteiramente determinada pelo outro.

Se eu tivesse que dizer que era um ou outro, eu chamaria isso de "inclinação correta", mas também apontaria que a impressão foi inteiramente devida ao efeito desse ponto muito grande. Sem ele, não há realmente o que dizer que é assimétrico. (Por outro lado, sem o sétimo ponto, ele claramente não fica inclinado.)

Devemos ter muito cuidado quando nossa impressão é inteiramente determinada por pontos únicos e pode ser revertida removendo um ponto. Isso não é muita base para continuar!


Começo com a premissa de que o que torna um outlier "periférico" é o modelo (o que é um outlier com relação a um modelo pode ser bastante típico em outro modelo).

Penso que uma observação no percentil superior de 0,01 (1/10000) de um normal (3,72 sds acima da média) é igualmente um desvio para o modelo normal, como uma observação no percentil superior de 0,01 de uma distribuição exponencial é para o modelo exponencial. (Se transformarmos uma distribuição por sua própria transformação integral de probabilidade, cada uma irá para o mesmo uniforme)

Para ver o problema de aplicar a regra boxplot até mesmo a uma distribuição com inclinação moderada à direita, simule amostras grandes de uma distribuição exponencial.

Por exemplo, se simularmos amostras do tamanho 100 a partir de um normal, calculamos a média de menos de 1 outlier por amostra. Se fizermos isso com um exponencial, obteremos uma média de cerca de 5. Mas não há base real para dizer que uma proporção mais alta de valores exponenciais é "periférica", a menos que façamos isso em comparação com (digamos) um modelo normal. Em situações particulares, podemos ter razões específicas para ter uma regra outlier de alguma forma específica, mas não existe uma regra geral, o que nos deixa com princípios gerais como o que eu comecei nesta subseção - para tratar cada modelo / distribuição sob suas próprias luzes (se um valor não é incomum em relação a um modelo, por que chamá-lo de discrepante nessa situação?)


Para passar para a pergunta no título :

Embora seja um instrumento bastante rude (e é por isso que eu olhei para o gráfico QQ), há várias indicações de distorção em um boxplot - se houver pelo menos um ponto marcado como outlier, há potencialmente (pelo menos) três:

insira a descrição da imagem aqui

Nesta amostra (n = 100), os pontos externos (verde) marcam os extremos e, com a mediana, sugerem assimetria esquerda. Em seguida, as cercas (azuis) sugerem (quando combinadas com a mediana) sugerem a inclinação correta. As dobradiças (quartis, marrom) sugerem assimetria esquerda quando combinadas com a mediana.

Como vemos, eles não precisam ser consistentes. O seu foco depende da situação em que você está (e possivelmente de suas preferências).

No entanto, um aviso sobre o quão bruto é o boxplot. O exemplo aqui no final - que inclui uma descrição de como gerar os dados - fornece quatro distribuições bem diferentes com o mesmo boxplot:

insira a descrição da imagem aqui

Como você pode ver, há uma distribuição bastante distorcida, com todos os indicadores de distorção mencionados acima, mostrando simetria perfeita.

-

Vamos considerar isso do ponto de vista "que resposta seu professor estava esperando, uma vez que este é um boxplot, que marca um ponto como um desvio?".

Ficamos com a primeira resposta "eles esperam que você avalie a assimetria excluindo esse ponto ou com ele na amostra?". Alguns a excluiriam e avaliariam a distorção do que resta, como jsk fez em outra resposta. Embora tenha contestado aspectos dessa abordagem, não posso dizer que esteja errado - isso depende da situação. Alguns o incluiriam (principalmente porque excluir 12,5% da sua amostra por causa de uma regra derivada da normalidade parece um grande passo *).

* Imagine uma distribuição populacional simétrica, exceto a cauda da extrema direita (eu construí uma delas para responder a isso - normal, mas com a cauda da extrema direita sendo Pareto -, mas não apresentei na minha resposta). Se eu tirar amostras do tamanho 8, muitas vezes 7 das observações vêm da parte de aparência normal e uma vem da cauda superior. Se excluirmos os pontos marcados como outliers de boxplot nesse caso, excluiremos o ponto que está nos dizendo que ele é realmente inclinado! Quando o fazemos, a distribuição truncada que permanece nessa situação fica distorcida e nossa conclusão seria o oposto da correta.

Glen_b -Reinstate Monica
fonte
1
@jsk Isso depende de como você deseja medir a assimetria. Como o grau de assimetria é parcialmente determinado por pontos externos (uma tendência a ser mais afastada em uma direção do que outra), removê-los sem dúvida perde o ponto de medir a assimetria. Uma discussão e análise mais detalhadas estão no meu post atualizado. Se você não estiver convencido, sinta-se à vontade para discordar, essas trocas geralmente são valiosas.
Glen_b -Reinstala Monica
1
@Glen_b Embora eu certamente respeite e entenda a posição que você está adotando, acredito que há um argumento razoável a ser feito para julgar a inclinação após remover o outlier, em oposição a antes. Depois de remover o outlier, a distribuição ainda ficará distorcida negativamente após remover o 7º ponto (260). Você verificou o qqplot e / ou comparou a média e a mediana?
jsk
1
Talvez o caso seja bastante fraco após a remoção do 7º, mas não vejo razão para justificar o julgamento da inclinação após removê-lo. Não é nada estranho, embora o ponto principal seja que as medidas de inclinação, não importa como você as veja neste caso, estejam sendo conduzidas por pontos únicos.
jsk
1
@Glen_ b Q3 + 1.5IQR é a regra prática típica ensinada neste nível para identificar discrepantes na cauda superior. A remoção ou não deles é outra questão. Você está argumentando que a distribuição está correta, porque a média é maior? Por que ignorar o fato de Q1 estar mais distante do Q2 do que o Q3?
Js6
1
Quero detalhar o que está perto da superfície aqui, mas não exatamente: muitas vezes os gráficos de caixas condensam demais, portanto, talvez você precise examinar todos os dados também.
Nick Cox
11

Não, você não perdeu nada: está realmente vendo além dos resumos simplistas que foram apresentados. Esses dados são distorcidos positiva e negativamente (no sentido de "distorção", sugerindo alguma forma de assimetria na distribuição dos dados).

John Tukey descreveu uma maneira sistemática de explorar a assimetria em lotes de dados por meio de seu "resumo do número N". Um boxplot é um gráfico de um resumo de cinco números e, portanto, é passível dessa análise.


MH+H-X+X-TEu+EuTEu+TEu-M=M+=M-(TEu++TEu-)/2Eu

Para aplicar essa idéia a um boxplot, basta desenhar os pontos médios de cada par de partes correspondentes: a mediana (que já está lá), o ponto médio das dobradiças (as extremidades da caixa, mostradas em azul) e o ponto médio dos extremos (mostrado em vermelho).

Boxplot

Neste exemplo, o valor mais baixo da dobradiça média em comparação com a mediana indica que o meio do lote está ligeiramente inclinado negativamente (corroborando a avaliação citada na pergunta, ao mesmo tempo em que limita adequadamente seu escopo ao meio do lote ) enquanto o valor (muito) mais alto do extremo médio indica que as caudas do lote (ou pelo menos seus extremos) estão inclinadas positivamente (embora, em uma inspeção mais detalhada, isso se deva a um único valor alto). Embora este seja um exemplo quase trivial, a riqueza relativa dessa interpretação em comparação com uma única estatística de "distorção" já revela o poder descritivo dessa abordagem.

Com um pouco de prática, você não precisa desenhar essas estatísticas intermediárias: você pode imaginar onde elas estão e ler as informações de assimetria resultantes diretamente de qualquer boxplot.


MHEDXEu=1,2,3,4,5. O gráfico à esquerda na figura a seguir é o gráfico de diagnóstico para os pontos médios dessas estatísticas emparelhadas. Do declive acelerado, fica claro que os dados estão se tornando cada vez mais positivamente distorcidos à medida que alcançamos suas caudas.

Figura 2

Os gráficos do meio e do lado direito mostram o mesmo para as raízes quadradas (dos dados, não para as estatísticas de número médio!) E para os logaritmos (base 10). A relativa estabilidade dos valores das raízes (observe a pequena faixa vertical relativa e o nível inclinado no meio) indica que esse lote de 219 valores se torna aproximadamente simétrico, tanto nas porções médias quanto em todas as partes de suas caudas, quase fora os extremos quando as alturas são reexpressas como raízes quadradas. Esse resultado é uma base forte - quase convincente - para continuar uma análise mais aprofundada dessas alturas em termos de suas raízes quadradas.

Entre outras coisas, esses gráficos revelam algo quantitativo sobre a assimetria dos dados: na escala original, eles revelam imediatamente a assimetria variável dos dados (lançando considerável dúvida sobre a utilidade de usar uma única estatística para caracterizar sua assimetria), enquanto em Na escala da raiz quadrada, os dados são quase simétricos em relação ao meio - e, portanto, podem ser resumidos de forma sucinta com um resumo de cinco números ou, equivalentemente, um boxplot. A assimetria novamente varia consideravelmente em uma escala de log, mostrando que o logaritmo é uma maneira "forte" demais para reexprimir esses dados.

A generalização de um boxplot para resumos de sete, nove e mais números é fácil de desenhar. Tukey os chama de "parcelas esquemáticas". Hoje, muitas parcelas têm um objetivo semelhante, incluindo reservas como QQ e novidades relativas, como "parcelas de feijão" e "parcelas de violino". (Mesmo o histograma inferior pode ser pressionado para esse fim.) Usando pontos de tais parcelas, é possível avaliar a assimetria de maneira detalhada e realizar uma avaliação semelhante de maneiras de reexprimir os dados.

whuber
fonte
7

A média sendo menor ou maior que a mediana é um atalho que geralmente funciona para determinar a direção da inclinação, desde que não haja discrepâncias. Nesse caso, a distribuição é distorcida negativamente, mas a média é maior que a mediana devido ao outlier.

jsk
fonte
Isso explica. Os livros que li não mencionaram nada disso!
21814 JerryW
Felizmente, os livros pelo menos mencionaram como a média é muito menos resistente a valores extremos do que a mediana!
jsk
Se isso conta como inclinado negativamente depende de como você mede a assimetria.
Glen_b -Reinstala Monica
Justo. É um pequeno conjunto de dados que torna especialmente difícil julgar a assimetria. Eu acho que este exemplo foi infelizmente jogado lá apenas pela razão de ter regras conflitantes de ouro para a determinação de inclinação
jsk
1
Concordo que pequenos conjuntos de dados como esse podem torná-lo desafiador, mas é perfeitamente possível construir distribuições contínuas igualmente desafiadoras.
Glen_b -Reinstate Monica