A definição padrão de um outlier para um gráfico Box e Whisker é pontos fora do intervalo , onde e é o primeiro quartil e é o terceiro quartil dos dados. I Q R = Q 3 - Q 1 Q 1 Q 3
Qual é a base para esta definição? Com um grande número de pontos, mesmo uma distribuição perfeitamente normal retorna valores discrepantes.
Por exemplo, suponha que você comece com a sequência:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Essa sequência cria uma classificação percentual de 4000 pontos de dados.
Testar a normalidade para qnorm
esta série resulta em:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Os resultados são exatamente como o esperado: a normalidade de uma distribuição normal é normal. Criar um qqnorm(qnorm(xseq))
cria (como esperado) uma linha reta de dados:
Se um boxplot dos mesmos dados for criado, boxplot(qnorm(xseq))
produz o resultado:
O boxplot, ao contrário de shapiro.test
, ad.test
ou qqnorm
identifica vários pontos como discrepantes quando o tamanho da amostra é suficientemente grande (como neste exemplo).
fonte
Respostas:
Boxplots
Aqui está uma seção relevante de Hoaglin, Mosteller e Tukey (2000): Entendendo a Análise de Dados Exploratória e Robusta. Wiley . Capítulo 3, "Boxplots e comparação de lotes", escrito por John D. Emerson e Judith Strenio (da página 62):
Eles continuam e mostram a aplicação a uma população gaussiana (página 63):
então
Além disso, eles escrevem
Eles fornecem uma tabela com a proporção esperada de valores que ficam fora dos limites extremos (denominados "Total% de saída"):
Portanto, esses pontos de corte nunca pretendiam ser uma regra estrita sobre quais pontos de dados são discrepantes ou não. Como você observou, espera-se que mesmo uma distribuição normal perfeita exiba "outliers" em um boxplot.
Outliers
Até onde eu sei, não existe uma definição universalmente aceita de outlier. Gosto da definição de Hawkins (1980):
Idealmente, você deve tratar os pontos de dados apenas como discrepantes depois de entender por que eles não pertencem ao restante dos dados. Uma regra simples não é suficiente. Um bom tratamento para os outliers pode ser encontrado em Aggarwal (2013).
Referências
Aggarwal CC (2013): Análise Outlier. Springer.
Hawkins D (1980): Identificação de Outliers. Chapman e Hall.
Hoaglin, Mosteller e Tukey (2000): Entendendo a Análise de Dados Exploratória e Robusta. Wiley.
fonte
A palavra 'outlier' é freqüentemente assumida como algo como 'um valor de dados errôneo, enganoso, equivocado ou quebrado e, portanto, deve ser omitido da análise', mas não é isso que Tukey quis dizer com o uso de outlier. Os outliers são simplesmente pontos que estão muito longe da mediana do conjunto de dados.
Seu ponto de vista sobre esperar discrepâncias em muitos conjuntos de dados é correto e importante. E há muitas boas perguntas e respostas sobre o assunto.
Removendo outliers de dados assimétricos
É apropriado identificar e remover discrepantes porque eles causam problemas?
fonte
Como em todos os métodos de detecção discrepantes, cuidados e pensamentos devem ser usados para determinar quais valores são realmente discrepantes. Eu acho que o boxplot simplesmente fornece uma boa visualização da propagação de dados e quaisquer valores extremos reais serão fáceis de serem capturados.
fonte
Eu acho que você deveria se preocupar se você não obtiver alguns outliers como parte de uma distribuição normal; caso contrário, talvez você deva procurar por razões que não existem. Claramente, eles devem ser revisados para garantir que não estejam registrando erros, mas são esperados.
fonte