Problemas com detecção de outlier

8

Em um post do blog, Andrew Gelman escreve :

A regressão passo a passo é uma dessas coisas, como detecção externa e gráficos de pizza, que parecem populares entre os não estatísticos, mas são considerados pelos estatísticos uma piada.

Entendo a referência aos gráficos de setores circulares, mas por que a detecção externa é menosprezada pelos estatísticos, segundo Gelman? Será que isso pode levar as pessoas a podar demais seus dados?

114
fonte
2
Se você olhar para os comentários na mesma página à qual vinculou, encontrará uma resposta do próprio Andrew, além de outras discussões. Veja, por exemplo, este comentário: andrewgelman.com/2014/06/02/hate-stepwise-regression/…
Jerome Baum
1
Os detalhes aqui sobre estatísticos versus não estatísticos são lamentáveis. Examine, por exemplo, o tratado de Barnett e Lewis sobre discrepâncias e você verá testes após testes sugeridos principalmente por estatísticos com foco em situações implausíveis. É verdade que (por exemplo) na física, as pessoas muitas vezes ainda seguem regras antigas propostas por Peirce e Chauvenet, mas grande parte da bobagem aqui também está associada a estatísticos. Divulgação: Eu não sou um estatístico e tenho a tendência de acreditar que os discrepantes são frequentemente genuínos e que encontrar a escala certa para trabalhar torna quase tudo tratável.
Nick Cox
@NickCox: Eu acho que Gelman pode estar se referindo a diferentes estatísticos versus não estatísticos. Por exemplo, ao analisar o comportamento malicioso nas redes, muitos não-estatísticos são demitidos por causa da detecção de valores extremos; "é claro que eu quero saber sobre comportamento incomum !!". Lendo a literatura estatística, muitos estatísticos iniciam e terminam seus trabalhos "bem, isso pode ser feito e aqui está como, mas ..."
Cliff AB
... ou, alternativamente, os biólogos costumam concordar com a eliminação de valores discrepantes, porque acreditam que esses valores discrepantes são devidos a erros de procedimento e não a um resultado incomum de um experimento executado adequadamente. Portanto, para eles, um procedimento que elimina automaticamente erros de procedimento parece ótimo, mas um estatístico não está tão satisfeito com o que realmente acontece na prática.
Cliff AB

Respostas:

1

O comentário de @Jerome Baum está no local. Para trazer a citação de Gelman aqui:

A detecção de outlier pode ser uma coisa boa. O problema é que os não estatísticos parecem gostar da palavra "outlier" sem tentar pensar no processo que cria o outlier, também alguns livros têm regras que parecem estúpidas para estatísticos como eu, regras como rotular algo como um outlier se mais do que um número de SDs da mediana, ou o que seja. O conceito de discrepante é útil, mas acho que requer contexto - se você rotula algo como discrepante, deseja tentar entender por que pensa isso.

Para adicionar um pouco mais, que tal primeiro definir outlier . Tente fazer isso rigorosamente sem se referir a algo visual como "parece que está longe de outros pontos". Na verdade, é bem difícil.

Eu diria que um outlier é um ponto altamente improvável, dado um modelo de como os pontos são gerados. Na maioria das situações, as pessoas não têm um modelo de como os pontos são gerados ou, se o fazem, são tão simplificados que podem estar errados a maior parte do tempo. Assim, como Andrew diz, as pessoas farão coisas como assumir que algum tipo de processo gaussiano está gerando pontos e, portanto, se um ponto for mais do que um certo número de SDs da média, é um erro. Matematicamente conveniente, não tão íntegro.

E nem chegamos a entender o que as pessoas fazem com discrepantes depois de identificadas. A maioria das pessoas quer jogar fora esses pontos inconvenientes, por exemplo. Em muitos casos, são os discrepantes que levam a descobertas e descobertas, e não os não discrepantes!

Há muita ad-hoc'ery na detecção de outlier, como praticado por não estatísticos, e Andrew se sente desconfortável com isso.

Wayne
fonte
0

Isso demonstra o cabo de guerra clássico entre os dois tipos de objetivos para análises estatísticas, como a regressão: descritiva x preditiva. (Perdoe as generalizações nos meus comentários abaixo.)

Do ponto de vista do estatístico, a descrição geralmente importa mais que a previsão. Portanto, eles são inerentemente "tendenciosos" para a explicação. Por que existe um outlier? É realmente um erro na entrada de dados (zeros extras no final de um valor) ou é um ponto de dados válido que, por acaso, é extremo? Essas são perguntas importantes para um estatístico.

OTOH, os cientistas de dados estão mais interessados ​​na previsão do que na descrição. Seu objetivo é desenvolver um modelo forte que faça um ótimo trabalho de previsão de um resultado futuro (por exemplo, compra, desgaste). Se houver um valor extremo em um dos campos, um cientista de dados felizmente limitaria esse valor (ao valor do 98º percentil, por exemplo), se isso ajudar a melhorar a precisão preditiva do modelo.

Não tenho uma inclinação geral em relação a nenhuma dessas duas abordagens. No entanto, se os métodos / abordagens, como regressão gradual e tratamento externo, são "uma piada" ou não, depende de qual lado da cerca você está.

Vishal
fonte