Qual é a base para a definição de Box e Whisker Plot de um outlier?

17

A definição padrão de um outlier para um gráfico Box e Whisker é pontos fora do intervalo , onde e é o primeiro quartil e é o terceiro quartil dos dados. I Q R = Q 3 - Q 1 Q 1 Q 3{Q1-1.5EuQR,Q3+1.5EuQR}EuQR=Q3-Q1Q1Q3

Qual é a base para esta definição? Com um grande número de pontos, mesmo uma distribuição perfeitamente normal retorna valores discrepantes.

Por exemplo, suponha que você comece com a sequência:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Essa sequência cria uma classificação percentual de 4000 pontos de dados.

Testar a normalidade para qnormesta série resulta em:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Os resultados são exatamente como o esperado: a normalidade de uma distribuição normal é normal. Criar um qqnorm(qnorm(xseq))cria (como esperado) uma linha reta de dados:

plot qqnorm de dados

Se um boxplot dos mesmos dados for criado, boxplot(qnorm(xseq))produz o resultado:

boxplot dos dados

O boxplot, ao contrário de shapiro.test, ad.testou qqnormidentifica vários pontos como discrepantes quando o tamanho da amostra é suficientemente grande (como neste exemplo).

Tavrock
fonte
o que você quer dizer com "base"? esta é uma definição, e ninguém diz distribuição perfeitamente normal não tem valores atípicos
Haitao Du
2
@ hxd1011, a definição da distribuição não pode ser um desvio de si mesma. Essa definição para testar outliers em um gráfico de caixa e bigode está testando / algo / para fornecer o resultado, qualquer que seja o teste, seria a base do teste.
Tavrock 02/02
Eu acho que a definição outlier de caixa e bigode é apenas algumas heurísticas ... Além disso, por que a definição da distribuição não pode ter uma outlier de si?
Haitao Du
3
Não importa qual regra você escolher, você acabaria dizendo "com um grande número de pontos, até mesmo uma distribuição perfeitamente normal retorna valores discrepantes". [Tente chegar a uma maneira de identificar utilmente discrepantes que não pode rejeitar quaisquer pontos se você amostra de uma distribuição normal.]
Glen_b -Reinstate Monica
1
Uma anedota muito repetida é que John Tukey, que criou essa regra de ouro, foi perguntado por que 1,5; e disse que 1 seria muito pouco e 2 seria demais. Dado o número de vezes que o vi mal interpretado como um critério definitivo ou oracular, ficaria mais do que feliz em desaparecer. Agora todos nós temos computadores que podem mostrar todos os dados!
Nick Cox

Respostas:

25

Boxplots

Aqui está uma seção relevante de Hoaglin, Mosteller e Tukey (2000): Entendendo a Análise de Dados Exploratória e Robusta. Wiley . Capítulo 3, "Boxplots e comparação de lotes", escrito por John D. Emerson e Judith Strenio (da página 62):

Feu-32dFFU+32dF

FeuFvocêdFFvocê-Feu

Eles continuam e mostram a aplicação a uma população gaussiana (página 63):

0 010 0-0,67450,67451,34943322.02352±2,69822399,3%

então

0,7%

Além disso, eles escrevem

[...] Assim, podemos julgar se nossos dados parecem mais pesados ​​que os gaussianos por quantos pontos ultrapassam os pontos de corte extremos. [...]

Eles fornecem uma tabela com a proporção esperada de valores que ficam fora dos limites extremos (denominados "Total% de saída"):

Quadro 3-2

Portanto, esses pontos de corte nunca pretendiam ser uma regra estrita sobre quais pontos de dados são discrepantes ou não. Como você observou, espera-se que mesmo uma distribuição normal perfeita exiba "outliers" em um boxplot.


Outliers

Até onde eu sei, não existe uma definição universalmente aceita de outlier. Gosto da definição de Hawkins (1980):

Um outlier é uma observação que se desvia tanto das outras observações que suscita suspeitas de que foi gerada por um mecanismo diferente.

Idealmente, você deve tratar os pontos de dados apenas como discrepantes depois de entender por que eles não pertencem ao restante dos dados. Uma regra simples não é suficiente. Um bom tratamento para os outliers pode ser encontrado em Aggarwal (2013).

Referências

Aggarwal CC (2013): Análise Outlier. Springer.
Hawkins D (1980): Identificação de Outliers. Chapman e Hall.
Hoaglin, Mosteller e Tukey (2000): Entendendo a Análise de Dados Exploratória e Robusta. Wiley.

COOLSerdash
fonte
7

A palavra 'outlier' é freqüentemente assumida como algo como 'um valor de dados errôneo, enganoso, equivocado ou quebrado e, portanto, deve ser omitido da análise', mas não é isso que Tukey quis dizer com o uso de outlier. Os outliers são simplesmente pontos que estão muito longe da mediana do conjunto de dados.

Seu ponto de vista sobre esperar discrepâncias em muitos conjuntos de dados é correto e importante. E há muitas boas perguntas e respostas sobre o assunto.

Removendo outliers de dados assimétricos

É apropriado identificar e remover discrepantes porque eles causam problemas?

Michael Lew
fonte
2

Como em todos os métodos de detecção discrepantes, cuidados e pensamentos devem ser usados ​​para determinar quais valores são realmente discrepantes. Eu acho que o boxplot simplesmente fornece uma boa visualização da propagação de dados e quaisquer valores extremos reais serão fáceis de serem capturados.

bdeonovic
fonte
0

Eu acho que você deveria se preocupar se você não obtiver alguns outliers como parte de uma distribuição normal; caso contrário, talvez você deva procurar por razões que não existem. Claramente, eles devem ser revisados ​​para garantir que não estejam registrando erros, mas são esperados.

Robert Jones
fonte