O que são "franjas"?

8

Recentemente, recebi um comentário de um revisor de uma revista que me pediu para

relatar como eu lidei com outliers e franjas .

Eu não tinha ouvido falar do termo "franjas" e, quando pesquisei no Google, havia alguns artigos, mas nenhuma definição concisa. Por isso, pensei que seria bom ter uma pergunta como essa que pudesse esclarecer o que são "franjas" e fornecer uma definição para mim e para as futuras pessoas que fazem a mesma pergunta.

Jeromy Anglim
fonte
Aqui está uma resposta proposta quando você envia sua revisão: "Eu lido com as franjas levando em consideração os comentários deles no meu manuscrito e revisando o meu artigo de acordo". ;-)
Stephan Kolassa

Respostas:

10

Fringeliers parece ser definido como um tipo menos extremo de discrepância. Ou seja, dados à margem da distribuição.

Por exemplo, se você definir um ponto de corte para os valores discrepantes, as franjas podem ser operacionalizadas para serem os valores que estão próximos aos lados do ponto de corte (por exemplo, para um ponto de corte de 3 pontos percentuais, entre 2,7 e 3,3 pontos da média).

Osborne e Overbay (2008) escrevem o seguinte:

Embora as definições variem, um outlier é geralmente considerado um ponto de dados que está muito fora da norma para uma variável ou população (por exemplo, Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) descreveu um outlier como uma observação que "se desvia tanto de outras observações que suscita suspeitas de que ela foi gerada por um mecanismo diferente" (p. 1). Outliers também foram definidos como valores “duvidosos aos olhos do pesquisador” (Dixon, 1950, p. 488) e contaminantes (Wainer, 1976).

E então introduza o termo "fringelier" de Wainer (1976)

Wainer (1976) também introduziu o conceito de "fringelier", referindo-se a "eventos incomuns que ocorrem com mais frequência do que raramente" (p. 286). Esses pontos se aproximam de três desvios-padrão da média e, portanto, podem ter uma influência desproporcionalmente forte nas estimativas de parâmetros, mas não são tão óbvios ou facilmente identificados quanto os outliers comuns, devido à sua proximidade relativa ao centro de distribuição.

Alguns exemplos:

Em alguns contextos, os valores discrepantes sugerem que os dados são inválidos. Por exemplo, se a altura de um homem é registrada como 8 pés de altura (digamos, 6,5 DP acima da média), essa provavelmente é uma medida inválida. Por outro lado, se a altura de alguém é registrada como 6 pés 10 polegadas de altura (3 DP acima da média - uma franja), essa pode ser uma medida válida, mas igualmente, pode sugerir um problema com a medida, pois isso é bastante raro. A questão é que determinar se um valor é inválido fica mais difícil, menos extremo ele se torna.

Em outros contextos, os valores discrepantes são uma preocupação, pois exercem uma influência excessiva nas estimativas de parâmetros, principalmente ao usar métodos estatísticos padrão, usando mínimos quadrados e assim por diante. Assim, as franjas podem ter maior impacto do que na maioria dos casos, mas as decisões sobre a retenção ou não dos dados para fins de modelagem podem ser menos claras.

Referências

  • Osborne, J. & Overbay, A. (2008). Práticas recomendadas para limpeza de dados: como os outliers e "franjas" podem aumentar as taxas de erro e diminuir a qualidade e a precisão dos seus resultados. Em Osborne, J. Melhores práticas em métodos quantitativos (pp. 205-213). Thousand Oaks, CA: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
  • Wainer, H.Robust statistics: Uma pesquisa e algumas prescrições1 (4) 285-312 (1976).
Jeromy Anglim
fonte
Suponho que a diferença só possa se manifestar na forma como são tratadas. As pessoas estão notando a diferença sugerindo tratar o "fringelier" com uma penalidade suave, enquanto tratam o outlier com uma penalidade severa, como descarte definitivo?
8117 Hans
0

Eu pensaria que você precisaria considerar a frequência dos fringeliers nos pontos de dados que residem abaixo do ponto de corte. Se a proporção de franquias para dados "válidos" for alta (com base em alguns fatores), talvez o ponto de corte seja definido de maneira irrealista. Imagine que você está em uma barraca, e os únicos ursos na área estão a 5 km; mas existem 500 deles! :)

Jim
fonte
Isso não fornece uma definição.
Michael R. Chernick 13/02/19