Procurei uma maneira de remover discrepantes de um conjunto de dados e encontrei esta pergunta .
Em alguns dos comentários e respostas a essa pergunta, no entanto, as pessoas mencionaram que é uma prática ruim remover valores discrepantes dos dados.
No meu conjunto de dados, tenho vários valores discrepantes que muito provavelmente se devem a erros de medição. Mesmo que alguns deles não sejam, não tenho como verificar caso a caso, porque há muitos pontos de dados. É estatisticamente válido do que apenas remover os valores discrepantes? Ou, se não, qual poderia ser outra solução?
Se eu deixar esses pontos lá, eles influenciam, por exemplo, a média de uma maneira que não reflete a realidade (porque a maioria deles são erros de qualquer maneira).
EDIT: Estou trabalhando com dados de condutância da pele. A maioria dos valores extremos deve-se a artefatos como alguém puxando os fios.
EDIT2: Meu principal interesse em analisar os dados é determinar se há uma diferença entre dois grupos
Respostas:
Eu não recomendo excluir qualquer discrepância na análise principal (a menos que você esteja realmente certo de que eles estão enganados). Você pode fazer isso em uma análise de sensibilidade e comparar os resultados das duas análises. Na ciência, muitas vezes você descobre coisas novas precisamente quando se concentra em tais discrepâncias.
Para aprofundar, pense na descoberta da penicilina seminal de Fleming, com base na contaminação acidental de seus experimentos com um molde:
http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1
Olhando para o passado ou o presente, a detecção externa é freqüentemente usada para orientar a inovação nas ciências biomédicas. Veja, por exemplo, os seguintes artigos (com alguns códigos R adequados):
http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678
Finalmente, se você tiver motivos razoáveis para excluir alguns dados, poderá fazê-lo, preferencialmente em uma análise de sensibilidade, e não na primária. Por exemplo, você pode excluir todos os valores que não são biologicamente plausíveis (como uma temperatura de 48 graus Celsius em um paciente séptico). Da mesma forma, você pode excluir todas as primeira e última medidas de qualquer paciente, para minimizar os artefatos de movimento. No entanto, observe que, se você fizer isso post-hoc (não com base em critérios pré-especificados), isso poderá resultar em massagens de dados.
fonte
Uma opção é excluir valores discrepantes, mas o IMHO é algo que você só deve fazer se puder argumentar (com quase certeza) por que esses pontos são inválidos (por exemplo, equipamentos de medição quebrados, o método de medição não é confiável por algum motivo, ...). Por exemplo, nas medições no domínio da frequência, a CD é frequentemente descartada, pois muitos termos diferentes contribuem para a CD, muitas vezes não relacionados ao fenômeno que você está tentando observar.
O problema com a remoção de valores discrepantes é que, para determinar quais pontos são discrepantes, é necessário ter um bom modelo do que são ou não "dados válidos". Se você não tiver certeza sobre o modelo (quais fatores devem ser incluídos, que estrutura o modelo possui, quais são as suposições do ruído, ...), não poderá ter certeza sobre seus valores discrepantes. Esses valores extremos podem ser apenas amostras que estão tentando dizer que seu modelo está errado. Em outras palavras: a remoção de discrepâncias reforçará seu modelo (incorreto!), Em vez de permitir que você obtenha novas idéias!
Outra opção é usar estatísticas robustas. Por exemplo, a média e o desvio padrão são sensíveis aos valores extremos, outras métricas de "localização" e "expansão" são mais robustas. Por exemplo, em vez da média, use a mediana. Em vez do desvio padrão, use a faixa inter-quartil. Em vez da regressão padrão dos mínimos quadrados, você pode usar uma regressão robusta. Todos esses métodos robustos não enfatizam os outliers de uma maneira ou de outra, mas geralmente não removem completamente os dados outlier (isto é, uma coisa boa).
fonte
Pensei em acrescentar um conto preventivo sobre a remoção de valores discrepantes:
Lembra do problema com o buraco na camada de ozônio polar? Havia um satélite que foi colocado em órbita sobre o pólo especificamente para medir a concentração de ozônio. Por alguns anos, os dados pós-processados do satélite relataram que o ozônio polar estava presente em níveis normais, embora outras fontes mostrassem claramente que o ozônio estava ausente. Finalmente, alguém voltou para verificar o software do satélite. Descobriu-se que alguém havia escrito o código para verificar se a medição bruta estava dentro de um intervalo esperado em relação ao nível histórico típico e para assumir que qualquer medição fora do intervalo era apenas um 'pico' de instrumento (ou seja, um outlier), auto- corrigindo o valor . Felizmente eles também registraram as medições brutas; ao checá-los, viram que o buraco havia sido relatado o tempo todo.
fonte
'Outlier' é um termo conveniente para a coleta de dados que não se encaixa no que você espera que seu processo pareça, a fim de remover da análise.
Eu sugeriria nunca (ressaltar mais tarde) remover os outliers. Minha formação é em controle estatístico de processos, geralmente lida com grandes volumes de dados de séries temporais gerados automaticamente, que são processados usando um gráfico de execução / gráfico de caixa móvel / etc., dependendo dos dados e da distribuição.
O problema dos outliers é que eles sempre fornecerão informações sobre o seu 'processo'. Muitas vezes, o que você pensa como um processo é na verdade muitos processos e é muito mais complexo do que você acredita.
Usando o exemplo da sua pergunta, eu sugeriria que poderia haver vários 'processos'. haverá variação devido a ...
Todos esses processos produzirão variações extras nos dados e provavelmente moverão a média e mudarão a forma da distribuição. Muitos deles não serão capazes de separar em processos distintos.
Então, com a idéia de remover pontos de dados como 'outliers' ... eu removeria apenas os pontos de dados, quando definitivamente puder atribuí-los a um 'processo' específico que não quero incluir na minha análise. Você precisa garantir que os motivos da não inclusão sejam registrados como parte de sua análise, por isso é óbvio. Não assuma a atribuição, é a coisa mais importante sobre como fazer anotações extras por meio da observação durante sua coleta de dados.
Eu desafiaria sua afirmação 'porque a maioria deles são erros de qualquer maneira', pois não são erros, mas apenas parte de um processo diferente que você identificou nas suas medidas como sendo diferente.
No seu exemplo, acho razoável excluir pontos de dados que você pode atribuir a um processo separado que não deseja analisar.
fonte
Se você estiver removendo discrepantes, na maioria das situações você precisará documentar que está fazendo isso e por quê. Se for para um artigo científico ou para fins de regulamentação, isso poderá resultar no desconto e / ou na rejeição de suas estatísticas finais.
A melhor solução é identificar quando você acha que está obtendo dados incorretos (por exemplo, quando as pessoas puxam fios), depois identifica quando as pessoas estão puxando fios e puxa os dados por esse motivo. Provavelmente, isso também resultará na queda de alguns pontos de dados 'bons', mas agora você tem um motivo 'real' para marcar e descontar esses pontos no final da coleta e não no final da análise. Desde que você faça isso de forma limpa e transparente, é muito mais provável que seja aceitável por terceiros. Se você remover pontos de dados relacionados a fios trançados e ainda assim for incomum, a conclusão provável é que os fios tracionados não são o (único) problema - o problema adicional pode estar no design de sua experiência ou na sua teoria.
Um dos primeiros experimentos que minha mãe teve ao retornar à universidade para terminar o bacharelado foi aquele em que os alunos receberam uma teoria "ruim" sobre como um processo funcionava e, em seguida, foram instruídos a realizar um experimento. Os alunos que excluíram ou modificaram os pontos de dados "ruins" resultantes falharam na tarefa. Aqueles que relataram corretamente que seus dados estavam em desacordo com os resultados previstos pela (má) teoria, foram aprovados. O objetivo da tarefa era ensinar aos alunos a não "consertar" (falsificar) seus dados quando não eram o que era esperado.
Resumo: se você estiver gerando dados incorretos, corrija sua experiência, não os dados.
fonte
É um dilema moral, com certeza. Por um lado, por que você deve deixar alguns pontos de dados suspeitos arruinarem o ajuste do seu modelo na maior parte dos dados? Por outro lado, excluir observações que não concordam com o conceito de realidade do seu modelo é uma espécie de censura. Para o ponto de @ Egon, esses discrepantes podem estar tentando lhe dizer algo sobre essa realidade.
Em uma apresentação do estatístico Steve MacEachern, ele definiu os outliers como sendo "[não representativos do fenômeno em estudo.]" Sob esse ponto de vista, se você sentir que esses dados suspeitos não são representativos do fenômeno de condutância da pele que você está tentando estudar , talvez eles não pertençam à análise. Ou, se eles puderem ficar, deve-se usar um método que limite sua influência. Na mesma apresentação, MacEachern deu exemplos de métodos robustos, e lembro que, nesses poucos exemplos, os métodos clássicos com os valores extremos removidos sempre concordavam com as análises robustas com os valores extremos ainda incluídos. Pessoalmente, costumo trabalhar com as técnicas clássicas com as quais me sinto mais confortável e convido com a incerteza moral da exclusão externa.
fonte
Se eu conduzir uma amostra aleatória de 100 pessoas, e uma dessas pessoas for Bill Gates, até onde eu sei, Bill Gates é representante de 1/100 da população.
Uma média reduzida indica que o salário médio da loteria é de US $ 0.
fonte
É claro que você deve remover os valores discrepantes, pois, por definição, eles não seguem a distribuição sob controle e são um fenômeno parasitário.
A verdadeira questão é "como posso detectar com segurança os valores discrepantes"!
fonte