As pessoas costumam falar sobre como lidar com discrepantes nas estatísticas. O que me incomoda é que, até onde eu sei, a definição de um outlier é completamente subjetiva. Por exemplo, se a verdadeira distribuição de alguma variável aleatória for muito pesada ou bimodal, qualquer visualização padrão ou estatística resumida para detectar outliers removerá incorretamente partes da distribuição da qual você deseja amostrar. Qual é uma definição rigorosa de discrepante, se houver, e como lidar com discrepantes sem introduzir quantidades irracionais de subjetividade em uma análise?
outliers
definition
dsimcha
fonte
fonte
rigorous definition of an outlier
quando poderá definirunreasonable amounts of subjectivity
uma maneira objetiva ;-), ObrigadoRespostas:
Desde que seus dados venham de uma distribuição conhecida com propriedades conhecidas, é possível definir rigorosamente um outlier como um evento que é muito improvável que tenha sido gerado pelo processo observado (se você considerar "muito improvável" não rigoroso, então todo teste de hipótese é).
No entanto, essa abordagem é problemática em dois níveis: assume que os dados provêm de uma distribuição conhecida com propriedades conhecidas e traz o risco de que os outliers sejam vistos como pontos de dados que foram contrabandeados para o conjunto de dados por algumas fadas mágicas.
Na ausência de fadas de dados mágicos, todos os dados vêm de seu experimento e, portanto, não é possível ter discrepâncias, apenas resultados estranhos. Isso pode resultar de erros de gravação (por exemplo, uma casa de 400.000 quartos por 4 dólares), problemas sistemáticos de medição (o algoritmo de análise de imagem relata grandes áreas se o objeto estiver muito próximo da borda) problemas experimentais (às vezes, cristais precipitam da solução, que emitem um sinal muito alto) ou recursos do seu sistema (às vezes uma célula pode se dividir em três em vez de duas), mas também podem ser o resultado de um mecanismo que ninguém nunca considerou porque é raro e você está pesquisando, o que significa que algumas das coisas que você faz simplesmente ainda não são conhecidas.
Idealmente, dedique um tempo para investigar todos os erros extremos e remova-os do seu conjunto de dados depois de entender por que ele não se encaixa no seu modelo. Isso é demorado e subjetivo, pois as razões são altamente dependentes do experimento, mas a alternativa é pior: se você não entende de onde vieram os outliers, pode escolher entre deixar que os outliers atrapalhem seus resultados, ou definir uma abordagem "matematicamente rigorosa" para ocultar sua falta de entendimento. Em outras palavras, ao buscar o "rigor matemático", você escolhe entre não obter um efeito significativo e não entrar no céu.
EDITAR
Se tudo o que você tem é uma lista de números sem saber de onde eles vêm, você não tem como saber se algum ponto de dados é um erro externo, porque você sempre pode assumir uma distribuição em que todos os dados são internos.
fonte
Você está certo de que remover discrepantes pode parecer um exercício subjetivo, mas isso não significa que esteja errado. A necessidade compulsiva de sempre ter uma razão matemática rigorosa para todas as decisões relacionadas à sua análise de dados geralmente é apenas um véu fino de rigor artificial sobre o que acaba sendo um exercício subjetivo de qualquer maneira. Isso é especialmente verdadeiro se você deseja aplicar a mesma justificativa matemática a todas as situações que encontrar. (Se houvesse regras matemáticas claras e à prova de balas para tudo, você não precisaria de um estatístico.)
Por exemplo, na sua situação de distribuição de cauda longa, não há método garantido para decidir apenas a partir dos números se você tem uma distribuição de interesse subjacente com outliers ou duas distribuições de interesse subjacente com outliers que fazem parte de apenas um deles. Ou, céu proíba, apenas a distribuição real de dados.
Quanto mais dados você coletar, mais você acessa as regiões de baixa probabilidade de uma distribuição. Se você coletar 20 amostras, é muito improvável que você obtenha um valor com um z-score de 3,5. Se você coletar 10.000 amostras, é muito provável que você obtenha uma e é uma parte natural da distribuição. Diante do exposto, como você decide apenas porque algo é extremo para excluí-lo?
A seleção dos melhores métodos em geral para análise geralmente é subjetiva. Se é injustificadamente subjetivo, depende da explicação para a decisão e do discrepante.
fonte
Eu não acho que é possível definir um outlier sem assumir um modelo do processo subjacente que deu origem aos dados. Sem esse modelo, não temos um quadro de referência para decidir se os dados são anômalos ou "errados". A definição de um outlier que eu achei útil é que um outlier é uma observação (ou observações) que não pode ser reconciliada com um modelo que, de outra forma, tem bom desempenho.
fonte
Há muitas respostas excelentes aqui. No entanto, quero salientar que duas perguntas estão sendo confundidas. A primeira é, 'o que é um discrepante?' E, mais especificamente, para dar uma "definição rigorosa" de tal. Isto é simples:
A segunda pergunta é 'como sei / detecto que um ponto de dados é um outlier?' Infelizmente, isso é muito difícil. No entanto, as respostas dadas aqui (que realmente são muito boas e que não posso melhorar) serão bastante úteis nessa tarefa.
fonte
Definição 1: Como já mencionado, um discrepante em um grupo de dados que reflete o mesmo processo (digamos, processo A) é uma observação (ou um conjunto de observações) que dificilmente será resultado do processo A.
Essa definição certamente envolve uma estimativa da função de probabilidade do processo A (daí um modelo) e definindo o que é improvável significa (isto é, decidir onde parar ...). Esta definição está na raiz da resposta que dei aqui . Está mais relacionado às idéias de teste de hipóteses de significância ou qualidade do ajuste .
Esta definição envolve um "modelo dado" e uma medida de precisão. Penso que esta definição é mais do lado prático e mais da origem dos discrepantes. Na Origin, a detecção de outlier era uma ferramenta para estatísticas robustas .
Obviamente, essas definições podem ser muito semelhantes se você entender que o cálculo de probabilidade na primeira definição envolve modelagem e cálculo de uma pontuação :)
fonte
Um discrepante é um ponto de dados que é inconveniente para mim, dado meu entendimento atual do processo que gera esses dados.
Eu acredito que esta definição é tão rigorosa quanto pode ser feita.
fonte
defina um outlier como membro desse conjunto mínimo de elementos que devem ser removidos de um conjunto de dados de tamanho n para garantir 100% de conformidade com os testes RUM realizados com nível de confiança de 95% em todos os (2 ^ n -1) subconjuntos exclusivos do dados. Veja o texto de Karian e Dudewicz sobre como ajustar dados a PDFs usando R (setembro de 2010) para definição do teste RUM.
fonte
Os discrepantes são importantes apenas no reino freqüentista. Se um único ponto de dados adiciona viés ao seu modelo, que é definido por uma distribuição subjacente predeterminada por sua teoria, é uma exceção para esse modelo. A subjetividade está no fato de que, se sua teoria postular um modelo diferente, você poderá ter um conjunto diferente de pontos como discrepantes.
fonte