Recentemente, recebi um comentário de um revisor de uma revista que me pediu para
relatar como eu lidei com outliers e franjas .
Eu não tinha ouvido falar do termo "franjas" e, quando pesquisei no Google, havia alguns artigos, mas nenhuma definição concisa. Por isso, pensei que seria bom ter uma pergunta como essa que pudesse esclarecer o que são "franjas" e fornecer uma definição para mim e para as futuras pessoas que fazem a mesma pergunta.
terminology
outliers
Jeromy Anglim
fonte
fonte
Respostas:
Fringeliers parece ser definido como um tipo menos extremo de discrepância. Ou seja, dados à margem da distribuição.
Por exemplo, se você definir um ponto de corte para os valores discrepantes, as franjas podem ser operacionalizadas para serem os valores que estão próximos aos lados do ponto de corte (por exemplo, para um ponto de corte de 3 pontos percentuais, entre 2,7 e 3,3 pontos da média).
Osborne e Overbay (2008) escrevem o seguinte:
E então introduza o termo "fringelier" de Wainer (1976)
Alguns exemplos:
Em alguns contextos, os valores discrepantes sugerem que os dados são inválidos. Por exemplo, se a altura de um homem é registrada como 8 pés de altura (digamos, 6,5 DP acima da média), essa provavelmente é uma medida inválida. Por outro lado, se a altura de alguém é registrada como 6 pés 10 polegadas de altura (3 DP acima da média - uma franja), essa pode ser uma medida válida, mas igualmente, pode sugerir um problema com a medida, pois isso é bastante raro. A questão é que determinar se um valor é inválido fica mais difícil, menos extremo ele se torna.
Em outros contextos, os valores discrepantes são uma preocupação, pois exercem uma influência excessiva nas estimativas de parâmetros, principalmente ao usar métodos estatísticos padrão, usando mínimos quadrados e assim por diante. Assim, as franjas podem ter maior impacto do que na maioria dos casos, mas as decisões sobre a retenção ou não dos dados para fins de modelagem podem ser menos claras.
Referências
fonte
Eu pensaria que você precisaria considerar a frequência dos fringeliers nos pontos de dados que residem abaixo do ponto de corte. Se a proporção de franquias para dados "válidos" for alta (com base em alguns fatores), talvez o ponto de corte seja definido de maneira irrealista. Imagine que você está em uma barraca, e os únicos ursos na área estão a 5 km; mas existem 500 deles! :)
fonte