Gostaria de criar uma floresta aleatória usando o seguinte processo:
- Construa uma árvore em amostras aleatórias dos dados e recursos usando o ganho de informações para determinar as divisões
- Encerre um nó folha se exceder uma profundidade predefinida OU qualquer divisão resultaria em uma contagem de folhas menor que um mínimo predefinido
- Em vez de atribuir um rótulo de classe para cada árvore, atribua a proporção de classes no nó folha
- Interrompa a construção de árvores após a construção de um número predefinido
Isso prejudica o processo tradicional de floresta aleatória de duas maneiras. Primeiro, ele usa árvores podadas que atribuem proporções ao invés de rótulos de classe. E segundo, o critério de parada é um número predeterminado de árvores, em vez de uma estimativa de erro fora da bolsa.
Minha pergunta é esta:
Para o processo acima que gera N árvores, posso ajustar um modelo usando regressão logística com a seleção do LASSO? Alguém tem experiência em ajustar um classificador Random Forest e pós-processamento com o LASSO logístico?
A estrutura ISLE menciona o uso do LASSO como uma etapa de pós-processamento para problemas de regressão, mas não problemas de classificação. Além disso, não obtenho nenhum resultado útil ao pesquisar no "Random forest lasso".
fonte
Respostas:
Isso parece um pouco com o aumento da árvore gradiente. A idéia de impulsionar é encontrar a melhor combinação linear de uma classe de modelos. Se ajustamos uma árvore aos dados, estamos tentando encontrar a árvore que melhor explica a variável de resultado. Se usarmos o reforço, estamos tentando encontrar a melhor combinação linear de árvores.
No entanto, usando o boosting, somos um pouco mais eficientes, pois não temos uma coleção de árvores aleatórias, mas tentamos construir novas árvores que funcionam com os exemplos que ainda não podemos prever bem.
Para obter mais informações, sugiro a leitura do capítulo 10 dos Elementos de aprendizagem estatística: http://statweb.stanford.edu/~tibs/ElemStatLearn/
Embora essa não seja uma resposta completa da sua pergunta, espero que ajude.
fonte