Uma medida da assimetria é baseada na mediana média - o segundo coeficiente de assimetria de Pearson .
Outra medida de assimetria é baseada nas diferenças relativas dos quartis (Q3-Q2) vs (Q2-Q1) expressas como uma razão
u = 0,25
A medida mais comum é, obviamente , a distorção do terceiro momento .
Não há razão para que essas três medidas sejam necessariamente consistentes. Qualquer um deles pode ser diferente dos outros dois.
O que consideramos "distorção" é um conceito um tanto escorregadio e mal definido. Veja aqui para mais discussão.
Se analisarmos seus dados com um qqplot normal:
[A linha marcada lá é baseada apenas nos 6 primeiros pontos, porque quero discutir o desvio dos dois últimos do padrão lá.]
Vemos que os menores 6 pontos estão quase perfeitamente na linha.
Então o sétimo ponto fica abaixo da linha (mais próximo do meio, em relação ao segundo ponto correspondente da extremidade esquerda), enquanto o oitavo ponto fica bem acima.
O sétimo ponto sugere leve inclinação para a esquerda, o último, forte para a direita. Se você ignorar um dos pontos, a impressão de assimetria é inteiramente determinada pelo outro.
Se eu tivesse que dizer que era um ou outro, eu chamaria isso de "inclinação correta", mas também apontaria que a impressão foi inteiramente devida ao efeito desse ponto muito grande. Sem ele, não há realmente o que dizer que é assimétrico. (Por outro lado, sem o sétimo ponto, ele claramente não fica inclinado.)
Devemos ter muito cuidado quando nossa impressão é inteiramente determinada por pontos únicos e pode ser revertida removendo um ponto. Isso não é muita base para continuar!
Começo com a premissa de que o que torna um outlier "periférico" é o modelo (o que é um outlier com relação a um modelo pode ser bastante típico em outro modelo).
Penso que uma observação no percentil superior de 0,01 (1/10000) de um normal (3,72 sds acima da média) é igualmente um desvio para o modelo normal, como uma observação no percentil superior de 0,01 de uma distribuição exponencial é para o modelo exponencial. (Se transformarmos uma distribuição por sua própria transformação integral de probabilidade, cada uma irá para o mesmo uniforme)
Para ver o problema de aplicar a regra boxplot até mesmo a uma distribuição com inclinação moderada à direita, simule amostras grandes de uma distribuição exponencial.
Por exemplo, se simularmos amostras do tamanho 100 a partir de um normal, calculamos a média de menos de 1 outlier por amostra. Se fizermos isso com um exponencial, obteremos uma média de cerca de 5. Mas não há base real para dizer que uma proporção mais alta de valores exponenciais é "periférica", a menos que façamos isso em comparação com (digamos) um modelo normal. Em situações particulares, podemos ter razões específicas para ter uma regra outlier de alguma forma específica, mas não existe uma regra geral, o que nos deixa com princípios gerais como o que eu comecei nesta subseção - para tratar cada modelo / distribuição sob suas próprias luzes (se um valor não é incomum em relação a um modelo, por que chamá-lo de discrepante nessa situação?)
Para passar para a pergunta no título :
Embora seja um instrumento bastante rude (e é por isso que eu olhei para o gráfico QQ), há várias indicações de distorção em um boxplot - se houver pelo menos um ponto marcado como outlier, há potencialmente (pelo menos) três:
Nesta amostra (n = 100), os pontos externos (verde) marcam os extremos e, com a mediana, sugerem assimetria esquerda. Em seguida, as cercas (azuis) sugerem (quando combinadas com a mediana) sugerem a inclinação correta. As dobradiças (quartis, marrom) sugerem assimetria esquerda quando combinadas com a mediana.
Como vemos, eles não precisam ser consistentes. O seu foco depende da situação em que você está (e possivelmente de suas preferências).
No entanto, um aviso sobre o quão bruto é o boxplot. O exemplo aqui no final - que inclui uma descrição de como gerar os dados - fornece quatro distribuições bem diferentes com o mesmo boxplot:
Como você pode ver, há uma distribuição bastante distorcida, com todos os indicadores de distorção mencionados acima, mostrando simetria perfeita.
-
Vamos considerar isso do ponto de vista "que resposta seu professor estava esperando, uma vez que este é um boxplot, que marca um ponto como um desvio?".
Ficamos com a primeira resposta "eles esperam que você avalie a assimetria excluindo esse ponto ou com ele na amostra?". Alguns a excluiriam e avaliariam a distorção do que resta, como jsk fez em outra resposta. Embora tenha contestado aspectos dessa abordagem, não posso dizer que esteja errado - isso depende da situação. Alguns o incluiriam (principalmente porque excluir 12,5% da sua amostra por causa de uma regra derivada da normalidade parece um grande passo *).
* Imagine uma distribuição populacional simétrica, exceto a cauda da extrema direita (eu construí uma delas para responder a isso - normal, mas com a cauda da extrema direita sendo Pareto -, mas não apresentei na minha resposta). Se eu tirar amostras do tamanho 8, muitas vezes 7 das observações vêm da parte de aparência normal e uma vem da cauda superior. Se excluirmos os pontos marcados como outliers de boxplot nesse caso, excluiremos o ponto que está nos dizendo que ele é realmente inclinado! Quando o fazemos, a distribuição truncada que permanece nessa situação fica distorcida e nossa conclusão seria o oposto da correta.
Não, você não perdeu nada: está realmente vendo além dos resumos simplistas que foram apresentados. Esses dados são distorcidos positiva e negativamente (no sentido de "distorção", sugerindo alguma forma de assimetria na distribuição dos dados).
John Tukey descreveu uma maneira sistemática de explorar a assimetria em lotes de dados por meio de seu "resumo do número N". Um boxplot é um gráfico de um resumo de cinco números e, portanto, é passível dessa análise.
Para aplicar essa idéia a um boxplot, basta desenhar os pontos médios de cada par de partes correspondentes: a mediana (que já está lá), o ponto médio das dobradiças (as extremidades da caixa, mostradas em azul) e o ponto médio dos extremos (mostrado em vermelho).
Neste exemplo, o valor mais baixo da dobradiça média em comparação com a mediana indica que o meio do lote está ligeiramente inclinado negativamente (corroborando a avaliação citada na pergunta, ao mesmo tempo em que limita adequadamente seu escopo ao meio do lote ) enquanto o valor (muito) mais alto do extremo médio indica que as caudas do lote (ou pelo menos seus extremos) estão inclinadas positivamente (embora, em uma inspeção mais detalhada, isso se deva a um único valor alto). Embora este seja um exemplo quase trivial, a riqueza relativa dessa interpretação em comparação com uma única estatística de "distorção" já revela o poder descritivo dessa abordagem.
Com um pouco de prática, você não precisa desenhar essas estatísticas intermediárias: você pode imaginar onde elas estão e ler as informações de assimetria resultantes diretamente de qualquer boxplot.
Os gráficos do meio e do lado direito mostram o mesmo para as raízes quadradas (dos dados, não para as estatísticas de número médio!) E para os logaritmos (base 10). A relativa estabilidade dos valores das raízes (observe a pequena faixa vertical relativa e o nível inclinado no meio) indica que esse lote de 219 valores se torna aproximadamente simétrico, tanto nas porções médias quanto em todas as partes de suas caudas, quase fora os extremos quando as alturas são reexpressas como raízes quadradas. Esse resultado é uma base forte - quase convincente - para continuar uma análise mais aprofundada dessas alturas em termos de suas raízes quadradas.
Entre outras coisas, esses gráficos revelam algo quantitativo sobre a assimetria dos dados: na escala original, eles revelam imediatamente a assimetria variável dos dados (lançando considerável dúvida sobre a utilidade de usar uma única estatística para caracterizar sua assimetria), enquanto em Na escala da raiz quadrada, os dados são quase simétricos em relação ao meio - e, portanto, podem ser resumidos de forma sucinta com um resumo de cinco números ou, equivalentemente, um boxplot. A assimetria novamente varia consideravelmente em uma escala de log, mostrando que o logaritmo é uma maneira "forte" demais para reexprimir esses dados.
A generalização de um boxplot para resumos de sete, nove e mais números é fácil de desenhar. Tukey os chama de "parcelas esquemáticas". Hoje, muitas parcelas têm um objetivo semelhante, incluindo reservas como QQ e novidades relativas, como "parcelas de feijão" e "parcelas de violino". (Mesmo o histograma inferior pode ser pressionado para esse fim.) Usando pontos de tais parcelas, é possível avaliar a assimetria de maneira detalhada e realizar uma avaliação semelhante de maneiras de reexprimir os dados.
fonte
A média sendo menor ou maior que a mediana é um atalho que geralmente funciona para determinar a direção da inclinação, desde que não haja discrepâncias. Nesse caso, a distribuição é distorcida negativamente, mas a média é maior que a mediana devido ao outlier.
fonte