Eu tenho pequenos conjuntos de dados de tamanho 40-50 pontos. Sem assumir que os dados são normalmente distribuídos, eu queria descobrir os valores extremos com pelo menos 90% de confiança. Eu pensei que o boxplot poderia ser uma boa maneira de fazer isso, mas não tenho certeza.
Qualquer ajuda apreciada.
Também nas implementações do boxplot, não consegui encontrar uma implementação que, além de desenhar o enredo, explique explicitamente os outliers.
Respostas:
Isso ocorre porque esse algoritmo não pode existir. Você precisa de uma distribuição assumida para poder classificar algo como estando fora do intervalo dos valores esperados.
Mesmo se você assumir uma distribuição normal, declarar pontos de dados como outliers é um negócio complicado. Em geral, você não precisa apenas de uma boa estimativa da verdadeira distribuição, que geralmente não está disponível, mas também de um bom motivo teórico para tomar sua decisão (ou seja, o sujeito interrompeu a configuração experimental de alguma forma). Tal julgamento é geralmente impossível de codificar em um algoritmo.
fonte
Isso não responde diretamente à sua pergunta, mas você pode aprender algo examinando o
outliers
conjunto de dados noTeachingDemos
pacote para R e trabalhando com os exemplos na página de ajuda. Isso pode lhe proporcionar uma melhor compreensão de alguns dos problemas com a detecção automática de outlier.fonte
R cuspirá os valores extremos
que vai desenhar o boxplot e dar
fonte
2*(1-pnorm(4*qnorm(.75)))
[1] 0.006976603
Set.seed(1); out = c();
for(i in 1:100)
x = rnorm(50)
y = boxplot(x, plot=F)
out[i] = length(y$out)>=1}
sum(out)/100
[1] 0.3
set.seed(1); out = c(); for(i in 1:100) {x = rnorm(500); y = boxplot(x, plot=F); out[i] = length(y$out)}; sum(out)/50000
dá0.00738
o que é mais perto do que eu estava descrevendoComo outros já disseram, você declarou mal a pergunta em termos de confiança. Existem testes estatísticos para o teste de outlier's, como o de Grubbs e o teste de proporção de Dixon, a que me referi em outro post. Eles assumem que a distribuição da população é normal, embora o teste de Dixon seja robusto ao pressuposto de normalidade em amostras pequenas. Um boxplot é uma boa maneira informal de identificar discrepâncias em seus dados. Geralmente, os bigodes são definidos nos percentis 5 e 95 e as obsessões plotadas além dos bigodes são geralmente consideradas possíveis discrepâncias. No entanto, isso não envolve testes estatísticos formais.
fonte