É correto remover valores discrepantes dos dados?

33

Procurei uma maneira de remover discrepantes de um conjunto de dados e encontrei esta pergunta .

Em alguns dos comentários e respostas a essa pergunta, no entanto, as pessoas mencionaram que é uma prática ruim remover valores discrepantes dos dados.

No meu conjunto de dados, tenho vários valores discrepantes que muito provavelmente se devem a erros de medição. Mesmo que alguns deles não sejam, não tenho como verificar caso a caso, porque há muitos pontos de dados. É estatisticamente válido do que apenas remover os valores discrepantes? Ou, se não, qual poderia ser outra solução?

Se eu deixar esses pontos lá, eles influenciam, por exemplo, a média de uma maneira que não reflete a realidade (porque a maioria deles são erros de qualquer maneira).

EDIT: Estou trabalhando com dados de condutância da pele. A maioria dos valores extremos deve-se a artefatos como alguém puxando os fios.

EDIT2: Meu principal interesse em analisar os dados é determinar se há uma diferença entre dois grupos

Sininho
fonte
3
E o que você quer fazer? Resumo dos dados? Análise preditiva? Visualização de dados? Provando que não há diferença significativa entre dois grupos? Como em toda limpeza de dados, não há resposta geral.
Piotr Migdal 8/16
5
Eu sou um engenheiro que trabalha com muitas estatísticas. Isso foi um aviso e uma confissão que significa que tenho que entregar produtos. Só podemos remover pontos "ruins" totalmente atribuídos. Você pode provar que foi de alguém puxando um fio? Se você obtiver várias medidas intencionais, poderá vincular e agrupar lá. Em seguida, você pode dividir os dados no cluster (pull vs non-pull) e não se trata mais de outliers. Se você não pode provar qual é a causa raiz, deve (deve) retê-la. Fala de variação, e essa é uma grande parte da análise. Você não pode se livrar dele se não gostar.
EngrStudent - Restabelece Monica 8/16
4
Eu acho que você começa do lado errado. A primeira pergunta é como você identifica os discrepantes em primeiro lugar?
user603
5
Em vez de remover arbitrariamente os valores discrepantes identificados arbitrariamente, é melhor considerar algo como "como eu tenho contaminação por problemas como pessoas puxando os fios, que metodologias posso usar e que não são muito afetadas por essa contaminação?"
Glen_b -Reinstate Monica

Respostas:

26

Eu não recomendo excluir qualquer discrepância na análise principal (a menos que você esteja realmente certo de que eles estão enganados). Você pode fazer isso em uma análise de sensibilidade e comparar os resultados das duas análises. Na ciência, muitas vezes você descobre coisas novas precisamente quando se concentra em tais discrepâncias.

Para aprofundar, pense na descoberta da penicilina seminal de Fleming, com base na contaminação acidental de seus experimentos com um molde:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Olhando para o passado ou o presente, a detecção externa é freqüentemente usada para orientar a inovação nas ciências biomédicas. Veja, por exemplo, os seguintes artigos (com alguns códigos R adequados):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Finalmente, se você tiver motivos razoáveis ​​para excluir alguns dados, poderá fazê-lo, preferencialmente em uma análise de sensibilidade, e não na primária. Por exemplo, você pode excluir todos os valores que não são biologicamente plausíveis (como uma temperatura de 48 graus Celsius em um paciente séptico). Da mesma forma, você pode excluir todas as primeira e última medidas de qualquer paciente, para minimizar os artefatos de movimento. No entanto, observe que, se você fizer isso post-hoc (não com base em critérios pré-especificados), isso poderá resultar em massagens de dados.

Joe_74
fonte
5
Concordo, mas acho que esta resposta é de alguma forma breve para a votação. Talvez você possa fornecer um exemplo elaborado ou mostrar por que e como novas coisas podem ser descobertas quando se concentra em discrepâncias? Isso pode não ser tão óbvio à primeira vista.
Tim
26

Uma opção é excluir valores discrepantes, mas o IMHO é algo que você só deve fazer se puder argumentar (com quase certeza) por que esses pontos são inválidos (por exemplo, equipamentos de medição quebrados, o método de medição não é confiável por algum motivo, ...). Por exemplo, nas medições no domínio da frequência, a CD é frequentemente descartada, pois muitos termos diferentes contribuem para a CD, muitas vezes não relacionados ao fenômeno que você está tentando observar.

O problema com a remoção de valores discrepantes é que, para determinar quais pontos são discrepantes, é necessário ter um bom modelo do que são ou não "dados válidos". Se você não tiver certeza sobre o modelo (quais fatores devem ser incluídos, que estrutura o modelo possui, quais são as suposições do ruído, ...), não poderá ter certeza sobre seus valores discrepantes. Esses valores extremos podem ser apenas amostras que estão tentando dizer que seu modelo está errado. Em outras palavras: a remoção de discrepâncias reforçará seu modelo (incorreto!), Em vez de permitir que você obtenha novas idéias!

Outra opção é usar estatísticas robustas. Por exemplo, a média e o desvio padrão são sensíveis aos valores extremos, outras métricas de "localização" e "expansão" são mais robustas. Por exemplo, em vez da média, use a mediana. Em vez do desvio padrão, use a faixa inter-quartil. Em vez da regressão padrão dos mínimos quadrados, você pode usar uma regressão robusta. Todos esses métodos robustos não enfatizam os outliers de uma maneira ou de outra, mas geralmente não removem completamente os dados outlier (isto é, uma coisa boa).

Egon
fonte
5
Ótima resposta. A maioria das pessoas não percebe que nem toda técnica é adequada para todos os tipos de dados . Concentrar-se na média de dados montados com valores discrepantes é um dos resultados infelizes. Quanto mais chamadas forem recebidas, a partir de respostas como essa, melhor para todos.
rumtscho
16

Pensei em acrescentar um conto preventivo sobre a remoção de valores discrepantes:

Lembra do problema com o buraco na camada de ozônio polar? Havia um satélite que foi colocado em órbita sobre o pólo especificamente para medir a concentração de ozônio. Por alguns anos, os dados pós-processados ​​do satélite relataram que o ozônio polar estava presente em níveis normais, embora outras fontes mostrassem claramente que o ozônio estava ausente. Finalmente, alguém voltou para verificar o software do satélite. Descobriu-se que alguém havia escrito o código para verificar se a medição bruta estava dentro de um intervalo esperado em relação ao nível histórico típico e para assumir que qualquer medição fora do intervalo era apenas um 'pico' de instrumento (ou seja, um outlier), auto- corrigindo o valor . Felizmente eles também registraram as medições brutas; ao checá-los, viram que o buraco havia sido relatado o tempo todo.

PMar
fonte
12
Seria bom incluir uma referência ao incidente : por que eles não descobriram o fenômeno antes? Infelizmente, o software de análise de dados TOMS foi programado para sinalizar e anular pontos de dados que se desviaram muito das medições esperadas e, portanto, as medições iniciais que deveriam ter acionado alarmes foram simplesmente ignoradas. Em resumo, a equipe do TOMS falhou em detectar o esgotamento do ozônio anos antes, porque era muito mais grave do que os cientistas esperavam.
9116 Johnny
3
Esta é uma ótima história. e muito repetido, mas para mim math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf o identifica de forma convincente como um mito baseado em um mal-entendido. Observe, aliás, que, como existem dois pólos, "a camada de ozônio polar" precisa ser reescrita.
Nick Cox
3
Veja também o relato oficial Christie. M. 2001. A camada de ozônio - uma filosofia da perspectiva da ciência. Cambridge: Cambridge UP
Nick Cox /
7

'Outlier' é um termo conveniente para a coleta de dados que não se encaixa no que você espera que seu processo pareça, a fim de remover da análise.

Eu sugeriria nunca (ressaltar mais tarde) remover os outliers. Minha formação é em controle estatístico de processos, geralmente lida com grandes volumes de dados de séries temporais gerados automaticamente, que são processados ​​usando um gráfico de execução / gráfico de caixa móvel / etc., dependendo dos dados e da distribuição.

O problema dos outliers é que eles sempre fornecerão informações sobre o seu 'processo'. Muitas vezes, o que você pensa como um processo é na verdade muitos processos e é muito mais complexo do que você acredita.

Usando o exemplo da sua pergunta, eu sugeriria que poderia haver vários 'processos'. haverá variação devido a ...

  • amostras colhidas por um dispositivo de condutância
  • amostras colhidas entre dispositivos de condutância
  • quando o sujeito removeu uma sonda
  • quando o assunto mudou
  • diferenças na pele de um indivíduo em todo o corpo ou entre diferentes dias de amostragem (cabelos, umidade, óleo, etc.)
  • diferenças entre sujeitos
  • o treinamento da pessoa que faz as medições e variações entre funcionários

Todos esses processos produzirão variações extras nos dados e provavelmente moverão a média e mudarão a forma da distribuição. Muitos deles não serão capazes de separar em processos distintos.

Então, com a idéia de remover pontos de dados como 'outliers' ... eu removeria apenas os pontos de dados, quando definitivamente puder atribuí-los a um 'processo' específico que não quero incluir na minha análise. Você precisa garantir que os motivos da não inclusão sejam registrados como parte de sua análise, por isso é óbvio. Não assuma a atribuição, é a coisa mais importante sobre como fazer anotações extras por meio da observação durante sua coleta de dados.

Eu desafiaria sua afirmação 'porque a maioria deles são erros de qualquer maneira', pois não são erros, mas apenas parte de um processo diferente que você identificou nas suas medidas como sendo diferente.

No seu exemplo, acho razoável excluir pontos de dados que você pode atribuir a um processo separado que não deseja analisar.

Marcus D
fonte
6

Se você estiver removendo discrepantes, na maioria das situações você precisará documentar que está fazendo isso e por quê. Se for para um artigo científico ou para fins de regulamentação, isso poderá resultar no desconto e / ou na rejeição de suas estatísticas finais.

A melhor solução é identificar quando você acha que está obtendo dados incorretos (por exemplo, quando as pessoas puxam fios), depois identifica quando as pessoas estão puxando fios e puxa os dados por esse motivo. Provavelmente, isso também resultará na queda de alguns pontos de dados 'bons', mas agora você tem um motivo 'real' para marcar e descontar esses pontos no final da coleta e não no final da análise. Desde que você faça isso de forma limpa e transparente, é muito mais provável que seja aceitável por terceiros. Se você remover pontos de dados relacionados a fios trançados e ainda assim for incomum, a conclusão provável é que os fios tracionados não são o (único) problema - o problema adicional pode estar no design de sua experiência ou na sua teoria.

Um dos primeiros experimentos que minha mãe teve ao retornar à universidade para terminar o bacharelado foi aquele em que os alunos receberam uma teoria "ruim" sobre como um processo funcionava e, em seguida, foram instruídos a realizar um experimento. Os alunos que excluíram ou modificaram os pontos de dados "ruins" resultantes falharam na tarefa. Aqueles que relataram corretamente que seus dados estavam em desacordo com os resultados previstos pela (má) teoria, foram aprovados. O objetivo da tarefa era ensinar aos alunos a não "consertar" (falsificar) seus dados quando não eram o que era esperado.

Resumo: se você estiver gerando dados incorretos, corrija sua experiência, não os dados.

darkonc
fonte
5

É um dilema moral, com certeza. Por um lado, por que você deve deixar alguns pontos de dados suspeitos arruinarem o ajuste do seu modelo na maior parte dos dados? Por outro lado, excluir observações que não concordam com o conceito de realidade do seu modelo é uma espécie de censura. Para o ponto de @ Egon, esses discrepantes podem estar tentando lhe dizer algo sobre essa realidade.

Em uma apresentação do estatístico Steve MacEachern, ele definiu os outliers como sendo "[não representativos do fenômeno em estudo.]" Sob esse ponto de vista, se você sentir que esses dados suspeitos não são representativos do fenômeno de condutância da pele que você está tentando estudar , talvez eles não pertençam à análise. Ou, se eles puderem ficar, deve-se usar um método que limite sua influência. Na mesma apresentação, MacEachern deu exemplos de métodos robustos, e lembro que, nesses poucos exemplos, os métodos clássicos com os valores extremos removidos sempre concordavam com as análises robustas com os valores extremos ainda incluídos. Pessoalmente, costumo trabalhar com as técnicas clássicas com as quais me sinto mais confortável e convido com a incerteza moral da exclusão externa.

Ben Ogorek
fonte
8
Na Box, Hunter & Hunter: "Statistics for Experimenters", eles dizem que, na indústria química, os valores extremos muitas vezes levaram a novas patentes . Você quer jogar fora sua nova patente?
precisa saber é o seguinte
2
Não, não quero perder nenhuma patente. Mas também não quero girar doze ciclos tentando fazer com que meu modelo acomode "alguém puxando os fios". Esse certamente não é o fenômeno em estudo. Gosto da ideia de discrepâncias como oportunidades, e uma coisa a ser dita para a exclusão direta é que pelo menos o código fornecerá documentação dessas exclusões, enquanto que em métodos robustos as discrepantes apenas coexistem com os outros pontos.
Ben Ogorek 9/03/16
2
Você tem razão em que circunstâncias específicas devem ser levadas em consideração. O que não deve ser feito é aplicar algumas "regras" livres de contexto para rejeição mais externa. Não existem regras tão boas.
precisa saber é o seguinte
1
Meu ponto favorito sobre o poder do contexto é ilustrado pela pergunta: "As barras de Snickers são saudáveis?" Bem, se você está perdido na floresta há três dias e acaba de encontrar alguns no chão, acontece que eles são bastante saudáveis, afinal. Sinto que as respostas populares aqui estão nos dizendo: "Nunca coma um bar Snickers, a menos que tenha certeza absoluta de que morrerá se não comer".
Ben Ogorek 13/03/16
0

Se eu conduzir uma amostra aleatória de 100 pessoas, e uma dessas pessoas for Bill Gates, até onde eu sei, Bill Gates é representante de 1/100 da população.

Uma média reduzida indica que o salário médio da loteria é de US $ 0.

AdamO
fonte
Nada de anormal, uma média aparada não é adequada para distribuições distorcidas.
Yves Daoust
-2

É claro que você deve remover os valores discrepantes, pois, por definição, eles não seguem a distribuição sob controle e são um fenômeno parasitário.

A verdadeira questão é "como posso detectar com segurança os valores discrepantes"!

Yves Daoust
fonte
E se essa distribuição for Cauchy?
AdamO 11/01/19
@ AdamO: a verdadeira questão permanece, é claro.
Yves Daoust
Por que esse voto negativo?
Yves Daoust
3
(-1) porque não acho que seja uma contribuição adequada informada pela teoria, exemplo ou prática. O que é um "fenômeno parasitário" senão uma compreensão poética dos dados? Ao lidar com pressões sangüíneas, sódio urinário e imagens neurológicas, vejo "outliers" no dia-a-dia, representativos da população em consideração. Removê-los pode ser uma fonte significativa de preconceito. Dizer que eles são um "fenômeno parasitário" permite sugestiva e enganosamente uma prática estatística arriscada.
Adamo
@ Adam: você está apenas defendendo a manutenção dos inliers, com os quais concordo plenamente.
Yves Daoust