por que o método de reforço é sensível a valores discrepantes

12

Encontrei muitos artigos que afirmam que os métodos de aumento são sensíveis a valores discrepantes, mas nenhum artigo explica o porquê.

Na minha experiência, os valores extremos são ruins para qualquer algoritmo de aprendizado de máquina, mas por que os métodos de aumento são particularmente sensíveis?

Como os seguintes algoritmos classificariam em termos de sensibilidade a outliers: árvore de impulso, floresta aleatória, rede neural, SVM e métodos de regressão simples, como regressão logística?

lserlohn
fonte
1
Eu editei para tentar esclarecer (também se você colocar espaços no início de uma linha, o stackexchange o tratará como código). Para o seu segundo parágrafo, aumentar é e daí? Você pode ter que definir a sensibilidade.
Jeremy Miles
1
Além disso, outliers e noice não são a mesma coisa.
Jeremy Miles
Eu não marcaria esta pergunta como resolvida ainda. Não está claro se o aumento realmente sofre de discrepância mais do que outros métodos ou não. Parece que a resposta aceita foi aceita principalmente por causa do viés de confirmação.
Rinspy 17/08
Você pode compartilhar alguns desses artigos, por favor?
Acnalb 01/12/19

Respostas:

11

Os valores discrepantes podem ser ruins para impulsionar, porque o impulso constrói cada árvore nos resíduos / erros das árvores anteriores. Os outliers terão resíduos muito maiores do que os não outliers, portanto o aumento do gradiente concentrará uma quantidade desproporcional de sua atenção nesses pontos.

Ryan Zotti
fonte
2
Será melhor se você puder fornecer mais detalhes matemáticos ao OP!
Metariat
5
@ Matmattica Eu discordo que a adição de detalhes matemáticos fornecerá clareza adicional aqui. Seria apenas um símbolo para gradientes de árvores e uma taxa de aprendizado subsequente.
Ryan Zotti
1
@RyanZotti: Eu concordo com o Metariat. Notações mais formais resolveriam alguma confusão. Por exemplo, na frase 'Outliers terá resíduos muito maiores do que os não outliers', você quer dizer os resíduos escritos para quê? O modelo estimado ou o verdadeiro? Se o primeiro, não é verdade em geral e se o segundo, é irrelevante.
user603
1

Os algoritmos que você especificou são para classificação, portanto, suponho que você não se refira a outliers na variável de destino, mas insira outliers de variáveis. Os métodos Boosted Tree devem ser razoavelmente robustos para os valores discrepantes nos recursos de entrada, já que os alunos base são divisões em árvores. Por exemplo, se a divisão for x > 35 e 5.000.000 serão tratados da mesma forma. Isso pode ou não ser uma coisa boa, mas é uma pergunta diferente.

Se em vez disso você estava falando regressão e outliers na variável de destino, a sensibilidade dos métodos de árvore aumentada dependeria da função de custo usada. Obviamente, o erro ao quadrado é sensível aos valores discrepantes, porque a diferença é ao quadrado e isso influenciará muito a próxima árvore, uma vez que as tentativas de aumentar as perdas (gradiente da) aumentam. No entanto, existem funções de erro mais robustas que podem ser usadas para métodos de árvore aprimorada, como perda de Huber e perda absoluta.

ZakJ
fonte
0

Ao impulsionar, tentamos escolher o conjunto de dados no qual os resultados do algoritmo foram ruins, em vez de escolher aleatoriamente o subconjunto de dados. Esses exemplos concretos são importantes para aprender, portanto, se o conjunto de dados tiver muitos valores discrepantes e o algoritmo não apresentar um bom desempenho nesses, então, para aprender esses exemplos concretos, o algoritmo tentará selecionar subconjuntos com esses exemplos.

Waleed Sial
fonte