Em um post do blog, Andrew Gelman escreve :
A regressão passo a passo é uma dessas coisas, como detecção externa e gráficos de pizza, que parecem populares entre os não estatísticos, mas são considerados pelos estatísticos uma piada.
Entendo a referência aos gráficos de setores circulares, mas por que a detecção externa é menosprezada pelos estatísticos, segundo Gelman? Será que isso pode levar as pessoas a podar demais seus dados?
Respostas:
O comentário de @Jerome Baum está no local. Para trazer a citação de Gelman aqui:
Para adicionar um pouco mais, que tal primeiro definir outlier . Tente fazer isso rigorosamente sem se referir a algo visual como "parece que está longe de outros pontos". Na verdade, é bem difícil.
Eu diria que um outlier é um ponto altamente improvável, dado um modelo de como os pontos são gerados. Na maioria das situações, as pessoas não têm um modelo de como os pontos são gerados ou, se o fazem, são tão simplificados que podem estar errados a maior parte do tempo. Assim, como Andrew diz, as pessoas farão coisas como assumir que algum tipo de processo gaussiano está gerando pontos e, portanto, se um ponto for mais do que um certo número de SDs da média, é um erro. Matematicamente conveniente, não tão íntegro.
E nem chegamos a entender o que as pessoas fazem com discrepantes depois de identificadas. A maioria das pessoas quer jogar fora esses pontos inconvenientes, por exemplo. Em muitos casos, são os discrepantes que levam a descobertas e descobertas, e não os não discrepantes!
Há muita ad-hoc'ery na detecção de outlier, como praticado por não estatísticos, e Andrew se sente desconfortável com isso.
fonte
Isso demonstra o cabo de guerra clássico entre os dois tipos de objetivos para análises estatísticas, como a regressão: descritiva x preditiva. (Perdoe as generalizações nos meus comentários abaixo.)
Do ponto de vista do estatístico, a descrição geralmente importa mais que a previsão. Portanto, eles são inerentemente "tendenciosos" para a explicação. Por que existe um outlier? É realmente um erro na entrada de dados (zeros extras no final de um valor) ou é um ponto de dados válido que, por acaso, é extremo? Essas são perguntas importantes para um estatístico.
OTOH, os cientistas de dados estão mais interessados na previsão do que na descrição. Seu objetivo é desenvolver um modelo forte que faça um ótimo trabalho de previsão de um resultado futuro (por exemplo, compra, desgaste). Se houver um valor extremo em um dos campos, um cientista de dados felizmente limitaria esse valor (ao valor do 98º percentil, por exemplo), se isso ajudar a melhorar a precisão preditiva do modelo.
Não tenho uma inclinação geral em relação a nenhuma dessas duas abordagens. No entanto, se os métodos / abordagens, como regressão gradual e tratamento externo, são "uma piada" ou não, depende de qual lado da cerca você está.
fonte