Encontrar discrepantes sem assumir a distribuição normal

8

Eu tenho pequenos conjuntos de dados de tamanho 40-50 pontos. Sem assumir que os dados são normalmente distribuídos, eu queria descobrir os valores extremos com pelo menos 90% de confiança. Eu pensei que o boxplot poderia ser uma boa maneira de fazer isso, mas não tenho certeza.

Qualquer ajuda apreciada.

Também nas implementações do boxplot, não consegui encontrar uma implementação que, além de desenhar o enredo, explique explicitamente os outliers.

Abhi
fonte
7
90% de confiança em quê?
Henry
O que também vejo às vezes é que os pesquisadores descartam os X% superior e inferior de suas observações para reduzir a influência de casos extremos. Mas não tenho certeza se concordo com isso, é bastante arbitrário, não é?
C. Pieters
Você não precisa assumir que seus dados são normalmente distribuídos, mas como você sabe com quais dados está lidando, poderá usar outra distribuição paramétrica. Por exemplo, os tempos de espera geralmente são distribuídos por Poisson. Então faz sentido dizer se um ponto de dados de Poisson provavelmente será gerado por uma determinada distribuição deles.
Jack Tanner

Respostas:

22

Isso ocorre porque esse algoritmo não pode existir. Você precisa de uma distribuição assumida para poder classificar algo como estando fora do intervalo dos valores esperados.

Mesmo se você assumir uma distribuição normal, declarar pontos de dados como outliers é um negócio complicado. Em geral, você não precisa apenas de uma boa estimativa da verdadeira distribuição, que geralmente não está disponível, mas também de um bom motivo teórico para tomar sua decisão (ou seja, o sujeito interrompeu a configuração experimental de alguma forma). Tal julgamento é geralmente impossível de codificar em um algoritmo.

naught101
fonte
11
+1. Além disso, o uso de "com 90% de confiança" revela um mal-entendido da maneira como o conceito de confiança poderia ser aplicado nesse caso. Sem uma base para um certo grau de confiança, não há maneira sistemática de quantificar o nível de confiança que se possa ter. Seria algo arbitrário, como se alguém dissesse "Estou x% confiante de que esta sopa é muito salgada".
Rolando2
5
@ rolando2, é assim que pode ser, mas, no entanto, tenho 90% de confiança de que é um bom comentário.
gung - Restabelece Monica
6

Isso não responde diretamente à sua pergunta, mas você pode aprender algo examinando o outliersconjunto de dados no TeachingDemospacote para R e trabalhando com os exemplos na página de ajuda. Isso pode lhe proporcionar uma melhor compreensão de alguns dos problemas com a detecção automática de outlier.

Greg Snow
fonte
2

R cuspirá os valores extremos

dat <- c(6,8.5,-12,1,rnorm(40),-1,10,0)
boxplot(dat)$out

que vai desenhar o boxplot e dar

[1]   6.0   8.5 -12.0  10.0
Henry
fonte
2
1.5EuQR1.5EuQREuQR
4
>|1.5EuQR|
5
1.5EuQR2EuQR
1
2*(1-pnorm(4*qnorm(.75)))[1] 0.006976603Set.seed(1); out = c(); for(i in 1:100) x = rnorm(50) y = boxplot(x, plot=F) out[i] = length(y$out)>=1} sum(out)/100[1] 0.3n=50.
1
@gung: set.seed(1); out = c(); for(i in 1:100) {x = rnorm(500); y = boxplot(x, plot=F); out[i] = length(y$out)}; sum(out)/500000.00738o que é mais perto do que eu estava descrevendo
Henry
1

Como outros já disseram, você declarou mal a pergunta em termos de confiança. Existem testes estatísticos para o teste de outlier's, como o de Grubbs e o teste de proporção de Dixon, a que me referi em outro post. Eles assumem que a distribuição da população é normal, embora o teste de Dixon seja robusto ao pressuposto de normalidade em amostras pequenas. Um boxplot é uma boa maneira informal de identificar discrepâncias em seus dados. Geralmente, os bigodes são definidos nos percentis 5 e 95 e as obsessões plotadas além dos bigodes são geralmente consideradas possíveis discrepâncias. No entanto, isso não envolve testes estatísticos formais.

Michael R. Chernick
fonte
2
Definir os bigodes com esses percentis fixos me parece estranho. Você tem uma referência para isso? (Tukey, que originou o boxplot, não usou esse método: ele colocou os bigodes nos extremos, se estiverem suficientemente perto dos quartis, mas não mais do que 1,5 "degraus" (igual a aproximadamente 1,5 vezes o IQR). dos quartis.) Isso é muito mais robusto para detecção de valores extremos do que usar um percentil extremo, que - por definição - sempre identifica 10% dos dados como "valores extremos", o que não seria um procedimento muito útil.
whuber
Não sei se deveria ter dito normalmente. Eu acho que muitos pontos diferentes foram usados ​​para os bigodes. Eu acho que o 1º percentil e o 99º também foram usados ​​e o mínimo e o máximo. Mas se você usa min e max, não consegue encontrar valores extremos além dos bigodes. Não tenho nenhuma referência específica que me vem à mente no momento. Não quis dizer que qualquer coisa fora dos bigodes seria um erro quando os percentis 5 e 95 são usados. Eu só quis dizer que visualmente você pode vê-los porque eles estarão muito acima ou abaixo dos bigodes.
Michael R. Chernick