Quais são as semelhanças e diferenças entre estes três métodos: Bagagem, Boosting, Empilhamento? Qual é o melhor? E porque? Você pode me dar um exemplo para cada
Uma família de algoritmos que combinam modelos fracamente preditivos em um modelo fortemente preditivo. A abordagem mais comum é chamada de aumento de gradiente, e os modelos fracos mais usados são as árvores de classificação / regressão.
Quais são as semelhanças e diferenças entre estes três métodos: Bagagem, Boosting, Empilhamento? Qual é o melhor? E porque? Você pode me dar um exemplo para cada
O aumento da árvore de gradiente, conforme proposto por Friedman, usa as árvores de decisão como aprendizes básicos. Gostaria de saber se devemos tornar a árvore de decisão básica o mais complexa possível (totalmente crescida) ou mais simples? Existe alguma explicação para a escolha? A floresta...
Eu tenho dados de desequilíbrio de classe e quero ajustar os hiperparâmetros da trança impulsionada usando xgboost. Questões Existe um equivalente de gridsearchcv ou randomsearchcv para xgboost? Caso contrário, qual é a abordagem recomendada para ajustar os parâmetros do...
Breve definição de reforço : Um conjunto de alunos fracos pode criar um único aluno forte? Um aluno fraco é definido como um classificador que é apenas ligeiramente correlacionado com a classificação verdadeira (pode rotular exemplos melhor do que suposições aleatórias). Breve definição de...
Estou tentando entender as diferenças entre o GBM e o Adaboost. Estes são o que eu entendi até agora: Existem dois algoritmos de otimização, que aprendem com os erros do modelo anterior e finalmente fazem uma soma ponderada dos modelos. GBM e Adaboost são bem parecidos, exceto por suas funções...
Enquanto aprendia sobre o Gradient Boosting, não ouvi nenhuma restrição sobre as propriedades de um "classificador fraco" que o método usa para criar e agrupar modelos. No entanto, eu não conseguia imaginar uma aplicação de um GB que usa regressão linear e, de fato, quando realizei alguns testes -...
Venho acompanhando as competições do Kaggle há muito tempo e percebo que muitas estratégias de vitória envolvem o uso de pelo menos uma das "três grandes" qualidades: empacotar, aumentar e empilhar. Para as regressões, em vez de se concentrar na construção de um melhor modelo de regressão...
Estou procurando uma explicação de como a importância da variável relativa é calculada nas árvores com gradiente de aumento que não é excessivamente geral / simplista como: As medidas são baseadas no número de vezes que uma variável é selecionada para divisão, ponderada pela melhoria ao quadrado...
Existem várias implementações da família de modelos GBDT, como: GBM XGBoost LightGBM Catboost. Quais são as diferenças matemáticas entre essas diferentes implementações? O Catboost parece ter um desempenho superior às outras implementações, mesmo usando apenas seus parâmetros padrão de acordo...
Quais são algumas diretrizes úteis para testar parâmetros (por exemplo, profundidade de interação, filho pequeno, taxa de amostragem etc.) usando o GBM? Digamos que tenho 70-100 recursos, uma população de 200.000 e pretendo testar a profundidade de interação de 3 e 4. Claramente, preciso fazer...
Eu tinha uma pergunta sobre o parâmetro de profundidade de interação em gbm em R. Esta pode ser uma pergunta noob, pela qual peço desculpas, mas como o parâmetro, que acredito denota o número de nós terminais em uma árvore, indica basicamente X-way interação entre os preditores? Apenas tentando...
Veja também uma pergunta semelhante em stats.SE . Ao impulsionar algoritmos como AdaBoost e LPBoost , sabe-se que os alunos "fracos" a serem combinados só precisam ter um desempenho melhor do que o acaso para serem úteis, da Wikipedia: Os classificadores que ele usa podem ser fracos (ou seja,...
Como exemplo, assumir a função objetivo do modelo XGBoost no 'th iteração:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) onde é a função de perda, é o 'th saída de árvore e é a...
Qual é a maneira mais fácil de entender o reforço? Por que não aumenta classificadores muito fracos "até o infinito"
Eu tenho várias perguntas relacionadas a alunos fracos na aprendizagem de grupos (por exemplo, impulsionar). Isso pode parecer idiota, mas quais são os benefícios de usar alunos fracos em oposição a alunos fortes? (por exemplo, por que não aumentar com métodos de aprendizado "fortes"?) Existe...
Bem, recentemente, eu estava trabalhando no aprendizado de algoritmos de impulso, como adaboost, aumento de gradiente, e eu sabia que o mais comumente usado é o árvores. Eu realmente quero saber se existem alguns exemplos bem-sucedidos recentes (refiro-me a alguns artigos ou artigos) para o uso de...
Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA....
Eu estava lendo o relatório da solução vencedora de uma competição Kaggle ( Classificação de malware ). O relatório pode ser encontrado nesta postagem do fórum . O problema era um problema de classificação (nove classes, a métrica era a perda logarítmica) com 10.000 elementos no conjunto de trens e...
Eu li várias declarações (aparentemente) contraditórias, independentemente de o AdaBoost (ou outras técnicas de reforço) ser menos ou mais propenso a sobreajuste em comparação com outros métodos de aprendizado. Existem boas razões para acreditar em um ou outro? Se depende, do que depende? Quais...
Estou tentando entender como o XGBoost funciona. Eu já entendo como as árvores com gradiente aumentado funcionam no sklearn do Python. O que não está claro para mim é se o XGBoost funciona da mesma maneira, mas mais rápido, ou se existem diferenças fundamentais entre ele e a implementação do...