Removendo outliers dos dados - número máximo de outliers que você pode remover?
9
Eu tenho alguns dados discrepantes nos meus dados e queria excluí-los para ver se isso altera os resultados. Na sua opinião, qual é o número máximo de discrepantes aos quais se deve restringir?
Seu gráfico está desconfigurado aqui: os rótulos numéricos no eixo y estão ausentes e as entradas da legenda não são distintas. (Essa pode ser uma maneira de ocultar dados não publicados, mas não nos ajuda a dar bons conselhos.) A lenda enigmática não afeta sua pergunta, mas não saber em que escala você está trabalhando limita o escopo de respostas úteis. . Os dados mostrados exibem inclinação esquerda ou negativa moderada; isso pode fazer sentido, e os aparentes outliers são apenas conseqüências disso. Como alternativa, pode ser que você tenha transformado demais, por exemplo, logaritmos usados onde os dados não merecem isso.
Nick Cox
Respostas:
9
Não há máximo ou mínimo. Os discrepantes devem ser removidos se forem dados incorretos ou se houver outras razões substanciais para removê-los. Se não houver razões substanciais, sugiro o uso de métodos robustos a discrepâncias. Eu não removeria valores discrepantes apenas porque estão um pouco longe de outros pontos.
Acordado. Observe que Box, Hunter & Hunter: "Estatísticas para experimentadores" afirma que, na indústria química, os valores extremos muitas vezes resultaram em novas patentes! Dependendo das circunstâncias, os valores discrepantes podem ser a informação mais importante nos seus dados! Removê-los nunca deve ser fácil.
precisa saber é o seguinte
3
Também em astrofísica. "Vamos excluir os dados dos buracos negros e das estrelas de nêutrons" :-).
Peter Flom - Restabelece Monica
11
Peter Flom: Sim! E entre os seres humanos, se não houvesse discrepantes entre nós, ainda estaríamos vivendo na idade da pedra!
precisa saber é o seguinte
5
Neste exemplo, observe que todos os 7 dos outliers identificados possuem valores baixos, enquanto nenhum possui valores altos. Isso pode representar problemas com a medição ou pode significar algo muito interessante. De qualquer maneira, apenas remover os valores extremos aqui sem considerar o que levou aos valores baixos pareceria desaconselhável.
EdM
11
Eu interpreto a pergunta um pouco diferente. Não propõe a remoção de valores discrepantes da análise, que é o que esta resposta implica implicitamente. Ele apenas pergunta como conduzir uma análise de sensibilidade "para ver se isso altera os resultados". Embora o conselho aqui fornecido sobre a remoção de valores discrepantes seja bom - e claramente tenha alguma influência em decisões subseqüentes, se a análise for sensível aos discrepantes -, não parece servir aos interesses do OP nesse caso.
whuber
1
Eu enfatizaria algo que foi dito em outra resposta e comentários (acho que as respostas de Peter Flom são precisas e que EdM está certo sobre as medidas, entre todas).
Analisar dados é algo que deve ser feito com cuidado. Você deve estar muito ciente do significado dos valores discrepantes no seu contato. Por exemplo, supondo que seu procedimento de medição tenha sido realizado "corretamente" (quero dizer, você não introduziu vieses, seu equipamento foi calibrado, a pessoa que estava lendo o instrumento fez isso corretamente etc.), alguns discrepantes podem dizer algo interessante e às vezes muito importante.
Aqui está um exemplo inventado, por favor, seja indulgente (aponte-os nos comentários) se não estiver 100% correto em todos os aspectos. ;)
Diga que alguém está testando o efeito de aplicar uma certa quantidade de uma substância em algumas culturas (populações) de bactérias. Agora, "em geral", o efeito é estabilizar o número de bactérias na população, mas existem alguns valores discrepantes entre as diferentes culturas.
Imagine todos os seus valores extremos indicam situações em que todas as bactérias estão mortas. Ou que todos os valores extremos representam culturas em que as populações de bactérias cresceram fora de controle.
O que quero salientar é que a natureza de seus discrepantes percebidos pode ser significativa e as consequências de cada um são diferentes. Você pode estar em uma situação em que é intolerável que o número de bactérias aumente ou diminua.
Obviamente, se você notou que algumas populações foram destruídas pela substância, provavelmente investigaria o assunto, pois é uma situação facilmente reconhecível. Mas nem todos os fenômenos são facilmente detectáveis.
Para finalizar, a noção de outliers é um tanto arbitrária, mas seus significados são múltiplos e de importância diferente. Espero que isso faça você pensar sobre o assunto ... :)
Respostas:
Não há máximo ou mínimo. Os discrepantes devem ser removidos se forem dados incorretos ou se houver outras razões substanciais para removê-los. Se não houver razões substanciais, sugiro o uso de métodos robustos a discrepâncias. Eu não removeria valores discrepantes apenas porque estão um pouco longe de outros pontos.
fonte
Eu enfatizaria algo que foi dito em outra resposta e comentários (acho que as respostas de Peter Flom são precisas e que EdM está certo sobre as medidas, entre todas).
Analisar dados é algo que deve ser feito com cuidado. Você deve estar muito ciente do significado dos valores discrepantes no seu contato. Por exemplo, supondo que seu procedimento de medição tenha sido realizado "corretamente" (quero dizer, você não introduziu vieses, seu equipamento foi calibrado, a pessoa que estava lendo o instrumento fez isso corretamente etc.), alguns discrepantes podem dizer algo interessante e às vezes muito importante.
Aqui está um exemplo inventado, por favor, seja indulgente (aponte-os nos comentários) se não estiver 100% correto em todos os aspectos. ;)
Diga que alguém está testando o efeito de aplicar uma certa quantidade de uma substância em algumas culturas (populações) de bactérias. Agora, "em geral", o efeito é estabilizar o número de bactérias na população, mas existem alguns valores discrepantes entre as diferentes culturas.
Imagine todos os seus valores extremos indicam situações em que todas as bactérias estão mortas. Ou que todos os valores extremos representam culturas em que as populações de bactérias cresceram fora de controle.
O que quero salientar é que a natureza de seus discrepantes percebidos pode ser significativa e as consequências de cada um são diferentes. Você pode estar em uma situação em que é intolerável que o número de bactérias aumente ou diminua.
Obviamente, se você notou que algumas populações foram destruídas pela substância, provavelmente investigaria o assunto, pois é uma situação facilmente reconhecível. Mas nem todos os fenômenos são facilmente detectáveis.
Para finalizar, a noção de outliers é um tanto arbitrária, mas seus significados são múltiplos e de importância diferente. Espero que isso faça você pensar sobre o assunto ... :)
fonte