É trapaceiro descartar os outliers com base no boxplot de Mean Absolute Error para melhorar um modelo de regressão

15

Eu tenho um modelo de previsão testado com quatro métodos, como você pode ver na figura do boxplot abaixo. O atributo que o modelo prevê está no intervalo de 0 a 8.

Você pode perceber que há um limite superior externo e três limites inferiores indicados por todos os métodos. Gostaria de saber se é apropriado remover essas instâncias dos dados? Ou isso é uma espécie de trapaça para melhorar o modelo de previsão?

insira a descrição da imagem aqui

renakre
fonte
11
(1) Vejo resultados para quatro métodos, não para três. (2) Como a remoção de evidências dos recursos de previsão poderia melhorar os métodos?
whuber
@whuber (1) foi corrigido. Para o (2), para que resultaria na remoção de uma instância que é muito imprecisa previsto, não iria levar a um melhor desempenho de previsão em geral (isso foi o que eu quis dizer com "melhorar modelo" ?
renakre
7
remover uma observação por qualquer motivo (digamos os 4 pontos menos adequados) é em si uma escolha de modelo. Você deve avaliar o desempenho de previsão de esta segunda opção modelo também . O ponto mais importante é preservar a integridade do conjunto de testes final usado para avaliar o desempenho do método de previsão geral. Não está claro em sua pergunta se você planeja reequipar os modelos (Lasso etc.) após a exclusão dos dados mal previstos.
user603
2
Como observação lateral, eu acrescentaria que em algum momento um grande valor está oculto nos valores extremos e vale a pena dar uma olhada cuidadosa neles.
Dror Atariah
@DrorAtariah Obrigado Dror, eu concordo. Casos extremos são valiosos.
Renakre

Respostas:

22

É quase sempre uma trapaça remover observações para melhorar um modelo de regressão. Você deve deixar as observações apenas quando realmente pensa que essas são de fato discrepantes.

Por exemplo, você tem séries temporais do monitor de freqüência cardíaca conectado ao seu relógio inteligente. Se você der uma olhada na série, é fácil ver que haveria observações errôneas com leituras como 300bps. Eles devem ser removidos, mas não porque você deseja melhorar o modelo (o que quer que isso signifique). São erros de leitura que não têm nada a ver com a sua frequência cardíaca.

Uma coisa a ter cuidado, porém, é a correlação de erros com os dados. No meu exemplo, pode-se argumentar que você tem erros quando o monitor de freqüência cardíaca é deslocado durante exercícios como correr ou pular. O que tornará esses erros correlacionados com a taxa de hart. Nesse caso, deve-se tomar cuidado na remoção desses valores discrepantes e erros, porque eles não são aleatórios

Vou dar um exemplo inventado de quando não remover os valores discrepantes . Digamos que você esteja medindo o movimento de um peso em uma mola. Se o peso for pequeno em relação à força do peso, você notará que a lei de Hooke funciona muito bem: onde F

F=kΔx,
F é força, - coeficiente de tensão e Δ x é a posição do peso .kΔx

Agora, se você colocar um peso muito pesado ou o deslocar muito, começará a ver desvios: em deslocamentos grandes o suficiente o movimento parecerá se desviar do modelo linear. Portanto, você pode ser tentado a remover os valores discrepantes para melhorar o modelo linear. Isso não seria uma boa idéia, porque o modelo não está funcionando muito bem, pois a lei de Hooke está apenas aproximadamente certa.Δx

ATUALIZAÇÃO No seu caso, sugiro puxar esses pontos de dados e examiná-los mais de perto. Poderia ser falha de instrumento de laboratório? Interferência externa? Defeito de amostra? etc.

Em seguida, tente identificar se a presença desses valores extremos poderia ser correlacionada com o que você mede como no exemplo que dei. Se houver correlação, não haverá uma maneira simples de fazer isso. Se não houver correlação, você poderá remover os valores discrepantes

Aksakal
fonte
2
It is always a cheating to remove outliers to improve a regression model. Você considera a regressão spline como trapaça ? FWIW, ele faz observações de baixo peso, a fim de melhorar o modelo de regressão [local] ~
user603
11
Eu discordaria "É sempre uma trapaça remover discrepâncias para melhorar um modelo de regressão". existem muitas ferramentas para realizar diagnósticos de regressão, e o objetivo é detectar e "remover" discrepâncias e reajustar o modelo.
Haitao Du 21/02
6
@ hxd1011 as ferramentas como o Grubbs não devem remover automaticamente valores discrepantes. Eles apenas indicam que pode haver um erro, então você decide se é realmente um erro. É uma abordagem muito perigosa para melhorar o diagnóstico de ajuste, removendo automaticamente valores discrepantes. Você precisa analisá-los caso a caso.
Aksakal
2
Ok, eu entendi. Minha língua original era muito rígida. Eu editei a frase de abertura. Obrigado pelo feedback dos comentadores.
Aksakal
11
@renakre, se você não acha que esses são discrepantes, não remova as observações. No entanto, o que você pode precisar considerar é a medida da qualidade da previsão que não seja o erro quadrado. Por exemplo, se essas instâncias não são tão importantes para você, talvez você não precise ponderá-las no quadrado e, em vez disso, use desvio absoluto etc. A medida deve refletir a importância do erro de previsão, como perdas em dólares em cada erro de previsão . Além disso, o fato de que estas são as contagens não significa automaticamente que não há erros do instrumento, os plugins de páginas web que os cliques de contagem pode falhar
Aksakal
4

Originalmente, eu queria postar isso como um comentário em outra resposta, mas demorou demais para caber.

Quando olho para o seu modelo, ele não contém necessariamente um grupo grande e alguns valores discrepantes. Na minha opinião, ele contém 1 grupo de tamanho médio (1 a -1) e, em seguida, 6 grupos menores, cada um encontrado entre 2 números inteiros. Você pode ver claramente que, ao atingir um número inteiro, há menos observações nessas frequências. O único ponto especial é 0, onde não há realmente uma queda perceptível nas observações.

Na minha opinião, vale a pena abordar por que essa distribuição se espalha assim:

  • Por que a distribuição tem essas contagens de observação em números inteiros?
  • por que essa queda na contagem de observações não ocorre em 0?
  • O que há de tão especial nesses discrepantes que são discrepantes?

Ao medir ações humanas discretas, você sempre terá discrepâncias. Pode ser interessante ver por que esses discrepantes não se encaixam no seu modelo e como eles podem ser usados ​​para melhorar as iterações futuras do seu modelo.

Nzall
fonte
+1. O intervalo entre números inteiros nem sempre parece certo para os números inteiros; portanto, pode ser que muitos de nós vejam um padrão que não existe, mas pode ser um artefato de coleta de dados, codificação ou discretização que pode lançar luz. nos dados como um todo. Pode até haver uma lacuna em 0 que é obscurecida pelo grande número de pontos sobrepostos e talvez tremidos. Definitivamente, vale a pena voltar à origem para ver se os dados são o que pensamos que são.
28717 Wayne Wayne
2

Existem prós e contras na remoção de valores discrepantes e na construção de um modelo apenas para o "padrão normal".

  • Prós: o desempenho do modelo é melhor. A intuição é que, é muito difícil usar o modelo ONE para capturar o "padrão normal" e o "padrão externo". Portanto, removemos os valores discrepantes e dizemos que apenas construímos um modelo para "padrão normal".

  • Contras: não seremos capazes de prever valores discrepantes. Em outras palavras, suponha que pusemos nosso modelo em produção, haveria algumas previsões ausentes do modelo

Sugiro remover os outliers e criar o modelo e, se possível, tentar criar um modelo separado apenas para outlier.

Para a palavra "trapaça", se você estiver escrevendo um papel e liste explicitamente como define e remove discrepantes, e a menção de desempenho aprimorado está apenas nos dados limpos. Não é trapaça.

Haitao Du
fonte
3
Não me importo de ter o voto negativo, mas alguém poderia me dizer o motivo?
Haitao Du
Voto a favor :) Você também acha uma boa idéia remover os valores discrepantes e, em seguida, reamostrar os dados para testar mais o modelo de previsão?
Renakre
11
@renakre, sugiro que você pense sobre o que fazer na produção. Digamos que, se você descobriu que o outlier é de apenas 1%, e não há problema em não produzir saída na produção. Em seguida, basta removê-los. Se você descobriu que o outlier é de 30% e não é permitido ignorar previsões na produção. Em seguida, tente ter um modelo separado para ele.
Haitao Du 21/02
Estamos testando principalmente coisas para ver se podemos prever alguma variável de resultado. Será que if it is fine to produce no output in productionsignifica a mesma coisa? Portanto, se começarmos a usar nosso modelo em um aplicativo real para testar a variável de resultado e usar a pontuação prevista no aplicativo, não seria aceitável remover valores discrepantes (especialmente se forem muitos como você mencionou)? É isso que você queria dizer?
Renakre
11
@renakre Você está morto! Foi o que fizemos recentemente com o AITOBOX, onde os limites de previsão não são apenas baseados nos pesos psi, mas também nos erros de re-amostragem preenchidos com valores extremos. Isso é feito não apenas para modelos ARIMA, mas também para modelos causais em que a incerteza nos preditores também é incorporada de maneira semelhante.
precisa saber é o seguinte
2

Eu acredito que é apenas razoável remover discrepantes quando se tem uma sólida razão qualitativa para fazê-lo. Com isso, quero dizer que se tem informações de que outra variável, que não está no modelo, está impactando as observações discrepantes. Em seguida, é possível remover o outlier ou adicionar variáveis ​​adicionais.

Descobri que, quando tenho observações discrepantes em meu conjunto de dados, estudando para determinar por que o discrepante existe, aprendo mais sobre meus dados e sobre possíveis outros modelos a serem considerados.

user151162
fonte
11
Bem-vindo ao stats.SE! Reserve um momento para ver o nosso passeio . Seria útil se você expandisse sua resposta para responder mais completamente à pergunta (como a determinação de valores extremos com base no boxplot, os impactos que esse método pode ter no modelo de previsão, etc.).
Tavrock 28/02
2

Não estou nem convencido de que eles sejam "extremos". Você pode querer criar um gráfico de probabilidade normal. São dados ou resíduos da adaptação de um modelo?

Emil M Friedman
fonte
eles são a diferença entre os valores previstos e reais.
Renakre 5/03