Detectando outliers usando desvios padrão

27

Seguindo a minha pergunta aqui , pergunto-me se há pontos de vista fortes a favor ou contra o uso do desvio padrão para detectar discrepâncias (por exemplo, qualquer ponto de dados com mais de 2 desvios padrão é discrepante).

Eu sei que isso depende do contexto do estudo, por exemplo, um ponto de dados, 48 ​​kg, certamente será um erro em um estudo sobre o peso dos bebês, mas não em um estudo sobre o peso dos adultos.

Os valores discrepantes são o resultado de vários fatores, como erros de entrada de dados. No meu caso, esses processos são robustos.

Acho que a pergunta que estou fazendo é: usar o desvio padrão é um método sólido para detectar discrepâncias?

Amarald
fonte
11
Você diz: "No meu caso, esses processos são robustos". Significado o que? Que você tem certeza de que não possui erros de entrada de dados?
Wayne
Há tantas boas respostas aqui que não tenho certeza de qual resposta aceitar! Qualquer orientação sobre este seria útil
Amarald
Em geral, selecione o que você acha que responde à sua pergunta de maneira mais direta e clara. Se for muito difícil dizer, eu escolheria a que tiver mais votos. Mesmo que seja um pouco doloroso decidir qual, é importante recompensar alguém que teve tempo para responder.
Wayne
11
PS Você poderia esclarecer com uma nota o que você entende por "esses processos são robustos"? Não é crítico para as respostas, que se concentram na normalidade etc., mas acho que tem alguma influência.
Wayne Wayne
3
Outliers não são isentos de modelos. Um outlier incomum em um modelo pode ser um ponto perfeitamente comum em outro. A primeira pergunta deve ser "por que você está tentando detectar discrepâncias?" (em vez de fazer outra coisa, como usar métodos robustos para eles), e o segundo seria "o que torna uma observação mais estranha em sua aplicação em particular?"
Glen_b -Reinstala Monica

Respostas:

26

Alguns valores extremos são claramente impossíveis . Você menciona 48 kg para o peso do bebê. Isso é claramente um erro. Não é uma questão estatística , é uma questão substantiva. Não há bebês humanos de 48 kg. Qualquer método estatístico identificará esse ponto.

Pessoalmente, em vez de confiar em qualquer teste (mesmo os apropriados, conforme recomendado por @ Michael), eu representaria graficamente os dados. Mostrar que um determinado valor (ou valores) de dados é improvável sob alguma distribuição hipotética não significa que o valor esteja errado e, portanto, os valores não devem ser excluídos automaticamente apenas por serem extremos.

Além disso, a regra que você propõe (2 DP da média) é antiga, usada antes de os computadores facilitarem as coisas. Se N for 100.000, você certamente espera alguns valores acima de 2 DP a partir da média, mesmo se houver uma distribuição normal perfeita.

Mas e se a distribuição estiver errada? Suponha que, na população, a variável em questão não seja normalmente distribuída, mas tenha caudas mais pesadas que essa?

Peter Flom - Restabelece Monica
fonte
11
Qual é o maior valor do peso do bebê que você considera possível?
mark999
2
Eu não sei. Mas pode-se procurar o registro. De acordo com answers.com (de um rápido google), eram 23,12 libras, nascidas de dois pais com gigantismo. Se eu estivesse fazendo a pesquisa, verificaria mais.
Peter Flom - Restabelece Monica
E se não se pode inspecionar visualmente os dados (ou seja, ele pode ser parte de um processo automático?)
user90772
Adicione gráficos à automação, de alguma forma.
Peter Flom - Restabelece Monica
24

Sim. É uma maneira ruim de "detectar" outros usuários. Para dados normalmente distribuídos, esse método chamaria 5% das observações perfeitamente boas (ainda que extremas) de "outliers". Além disso, quando você tem uma amostra do tamanho n e procura observações extremamente altas ou baixas para chamá-las de discrepantes, está realmente olhando para as estatísticas de ordem extrema. O máximo e o mínimo de uma amostra normalmente distribuída não são normalmente distribuídos. Portanto, o teste deve ser baseado na distribuição dos extremos. É isso que o teste de Grubbs e o índice de Dixon fazem como já mencionei várias vezes antes. Mesmo quando você usa um teste apropriado para discrepantes, uma observação não deve ser rejeitada apenas porque é extraordinariamente extremada. Você deve investigar por que a observação extrema ocorreu primeiro.

Michael R. Chernick
fonte
11
Tão "ruim" quanto rejeitar H0 com base no baixo valor de p.
Leo
16

Quando você perguntar quantos desvios padrão da média um potencial outlier é, não se esqueça de que o outlier aumentará o SD e também afetará o valor da média. Se você tiver valores N, a proporção da distância da média dividida pelo DP nunca poderá exceder (N-1) / sqrt (N). Isso importa mais, é claro, com pequenas amostras. Por exemplo, se N = 3, nenhum outlier pode ser superior a 1,155 * DP a partir da média, portanto, é impossível que qualquer valor seja maior que 2 DP a partir da média. (Isso pressupõe, é claro, que você está computando a amostra SD a partir dos dados em mãos e não possui uma razão teórica para conhecer a população SD).

Os valores críticos para o teste de Grubbs foram calculados para levar isso em consideração e, portanto, dependem do tamanho da amostra.

Harvey Motulsky
fonte
12

Eu acho que o contexto é tudo. Para o exemplo dado, sim, claramente um bebê de 48 kg está errado, e o uso de 2 desvios-padrão pegaria esse caso. No entanto, não há razão para pensar que o uso de 2 desvios padrão (ou qualquer outro múltiplo de SD) seja apropriado para outros dados. Por exemplo, se você estiver observando resíduos de pesticidas em águas superficiais, dados além de 2 desvios padrão são bastante comuns. Esses valores particularmente altos não são "discrepantes", mesmo que residam longe da média, devido a eventos de chuva, aplicações recentes de pesticidas etc. É claro que você pode criar outras "regras práticas" (por que não 1,5 × SD, ou 3,1415927 × SD?), Mas francamente essas regras são difíceis de defender, e seu sucesso ou fracasso serão alterados dependendo dos dados que você estiver examinando. Eu acho que usar julgamento e lógica, apesar da subjetividade, é um método melhor para se livrar de outliers, em vez de usar uma regra arbitrária. Nesse caso, você não precisava de um SD 2 × para detectar os 48 kg de fora da curva - era capaz de raciocinar. Esse não é um método superior? Para casos em que você não pode argumentar, bem, as regras arbitrárias são melhores?

P auritus
fonte