Seguindo a minha pergunta aqui , pergunto-me se há pontos de vista fortes a favor ou contra o uso do desvio padrão para detectar discrepâncias (por exemplo, qualquer ponto de dados com mais de 2 desvios padrão é discrepante).
Eu sei que isso depende do contexto do estudo, por exemplo, um ponto de dados, 48 kg, certamente será um erro em um estudo sobre o peso dos bebês, mas não em um estudo sobre o peso dos adultos.
Os valores discrepantes são o resultado de vários fatores, como erros de entrada de dados. No meu caso, esses processos são robustos.
Acho que a pergunta que estou fazendo é: usar o desvio padrão é um método sólido para detectar discrepâncias?
Respostas:
Alguns valores extremos são claramente impossíveis . Você menciona 48 kg para o peso do bebê. Isso é claramente um erro. Não é uma questão estatística , é uma questão substantiva. Não há bebês humanos de 48 kg. Qualquer método estatístico identificará esse ponto.
Pessoalmente, em vez de confiar em qualquer teste (mesmo os apropriados, conforme recomendado por @ Michael), eu representaria graficamente os dados. Mostrar que um determinado valor (ou valores) de dados é improvável sob alguma distribuição hipotética não significa que o valor esteja errado e, portanto, os valores não devem ser excluídos automaticamente apenas por serem extremos.
Além disso, a regra que você propõe (2 DP da média) é antiga, usada antes de os computadores facilitarem as coisas. Se N for 100.000, você certamente espera alguns valores acima de 2 DP a partir da média, mesmo se houver uma distribuição normal perfeita.
Mas e se a distribuição estiver errada? Suponha que, na população, a variável em questão não seja normalmente distribuída, mas tenha caudas mais pesadas que essa?
fonte
Sim. É uma maneira ruim de "detectar" outros usuários. Para dados normalmente distribuídos, esse método chamaria 5% das observações perfeitamente boas (ainda que extremas) de "outliers". Além disso, quando você tem uma amostra do tamanho n e procura observações extremamente altas ou baixas para chamá-las de discrepantes, está realmente olhando para as estatísticas de ordem extrema. O máximo e o mínimo de uma amostra normalmente distribuída não são normalmente distribuídos. Portanto, o teste deve ser baseado na distribuição dos extremos. É isso que o teste de Grubbs e o índice de Dixon fazem como já mencionei várias vezes antes. Mesmo quando você usa um teste apropriado para discrepantes, uma observação não deve ser rejeitada apenas porque é extraordinariamente extremada. Você deve investigar por que a observação extrema ocorreu primeiro.
fonte
Quando você perguntar quantos desvios padrão da média um potencial outlier é, não se esqueça de que o outlier aumentará o SD e também afetará o valor da média. Se você tiver valores N, a proporção da distância da média dividida pelo DP nunca poderá exceder (N-1) / sqrt (N). Isso importa mais, é claro, com pequenas amostras. Por exemplo, se N = 3, nenhum outlier pode ser superior a 1,155 * DP a partir da média, portanto, é impossível que qualquer valor seja maior que 2 DP a partir da média. (Isso pressupõe, é claro, que você está computando a amostra SD a partir dos dados em mãos e não possui uma razão teórica para conhecer a população SD).
Os valores críticos para o teste de Grubbs foram calculados para levar isso em consideração e, portanto, dependem do tamanho da amostra.
fonte
Eu acho que o contexto é tudo. Para o exemplo dado, sim, claramente um bebê de 48 kg está errado, e o uso de 2 desvios-padrão pegaria esse caso. No entanto, não há razão para pensar que o uso de 2 desvios padrão (ou qualquer outro múltiplo de SD) seja apropriado para outros dados. Por exemplo, se você estiver observando resíduos de pesticidas em águas superficiais, dados além de 2 desvios padrão são bastante comuns. Esses valores particularmente altos não são "discrepantes", mesmo que residam longe da média, devido a eventos de chuva, aplicações recentes de pesticidas etc. É claro que você pode criar outras "regras práticas" (por que não 1,5 × SD, ou 3,1415927 × SD?), Mas francamente essas regras são difíceis de defender, e seu sucesso ou fracasso serão alterados dependendo dos dados que você estiver examinando. Eu acho que usar julgamento e lógica, apesar da subjetividade, é um método melhor para se livrar de outliers, em vez de usar uma regra arbitrária. Nesse caso, você não precisava de um SD 2 × para detectar os 48 kg de fora da curva - era capaz de raciocinar. Esse não é um método superior? Para casos em que você não pode argumentar, bem, as regras arbitrárias são melhores?
fonte