Encontrei muitos artigos que afirmam que os métodos de aumento são sensíveis a valores discrepantes, mas nenhum artigo explica o porquê.
Na minha experiência, os valores extremos são ruins para qualquer algoritmo de aprendizado de máquina, mas por que os métodos de aumento são particularmente sensíveis?
Como os seguintes algoritmos classificariam em termos de sensibilidade a outliers: árvore de impulso, floresta aleatória, rede neural, SVM e métodos de regressão simples, como regressão logística?
Respostas:
Os valores discrepantes podem ser ruins para impulsionar, porque o impulso constrói cada árvore nos resíduos / erros das árvores anteriores. Os outliers terão resíduos muito maiores do que os não outliers, portanto o aumento do gradiente concentrará uma quantidade desproporcional de sua atenção nesses pontos.
fonte
Os algoritmos que você especificou são para classificação, portanto, suponho que você não se refira a outliers na variável de destino, mas insira outliers de variáveis. Os métodos Boosted Tree devem ser razoavelmente robustos para os valores discrepantes nos recursos de entrada, já que os alunos base são divisões em árvores. Por exemplo, se a divisão for
x > 3
5 e 5.000.000 serão tratados da mesma forma. Isso pode ou não ser uma coisa boa, mas é uma pergunta diferente.Se em vez disso você estava falando regressão e outliers na variável de destino, a sensibilidade dos métodos de árvore aumentada dependeria da função de custo usada. Obviamente, o erro ao quadrado é sensível aos valores discrepantes, porque a diferença é ao quadrado e isso influenciará muito a próxima árvore, uma vez que as tentativas de aumentar as perdas (gradiente da) aumentam. No entanto, existem funções de erro mais robustas que podem ser usadas para métodos de árvore aprimorada, como perda de Huber e perda absoluta.
fonte
Ao impulsionar, tentamos escolher o conjunto de dados no qual os resultados do algoritmo foram ruins, em vez de escolher aleatoriamente o subconjunto de dados. Esses exemplos concretos são importantes para aprender, portanto, se o conjunto de dados tiver muitos valores discrepantes e o algoritmo não apresentar um bom desempenho nesses, então, para aprender esses exemplos concretos, o algoritmo tentará selecionar subconjuntos com esses exemplos.
fonte