Usando o LASSO em floresta aleatória

14

Gostaria de criar uma floresta aleatória usando o seguinte processo:

  • Construa uma árvore em amostras aleatórias dos dados e recursos usando o ganho de informações para determinar as divisões
  • Encerre um nó folha se exceder uma profundidade predefinida OU qualquer divisão resultaria em uma contagem de folhas menor que um mínimo predefinido
  • Em vez de atribuir um rótulo de classe para cada árvore, atribua a proporção de classes no nó folha
  • Interrompa a construção de árvores após a construção de um número predefinido

Isso prejudica o processo tradicional de floresta aleatória de duas maneiras. Primeiro, ele usa árvores podadas que atribuem proporções ao invés de rótulos de classe. E segundo, o critério de parada é um número predeterminado de árvores, em vez de uma estimativa de erro fora da bolsa.

Minha pergunta é esta:

Para o processo acima que gera N árvores, posso ajustar um modelo usando regressão logística com a seleção do LASSO? Alguém tem experiência em ajustar um classificador Random Forest e pós-processamento com o LASSO logístico?

A estrutura ISLE menciona o uso do LASSO como uma etapa de pós-processamento para problemas de regressão, mas não problemas de classificação. Além disso, não obtenho nenhum resultado útil ao pesquisar no "Random forest lasso".

Zelazny7
fonte
Laço é bom em encontrar / ponderar recursos úteis quando existem muitos de qualidade variável. É provável que árvores individuais em sua floresta não sejam muito melhores ou piores do que outras, então não acho que o laço possa ajudá-lo muito.
Rrenaud 12/03
Ao amostrar uma pequena fração sem substituição e limitar a profundidade da árvore, uma maior diversidade é introduzida, portanto, acho que é necessária alguma forma de regularização.
Zelazny7
Você pode ser mais específico sobre como planeja se ajustar ao modelo logístico? Quais são exatamente as variáveis ​​preditoras? Além disso - qual é a sua motivação para o pós-processamento? Se você estiver tentando fazer a seleção de variáveis, existem outros métodos a serem considerados.
Alex Williams
Ao produzir as previsões de cada árvore, um novo conjunto de dados de preditores é criado. Esse conjunto de dados pode ser usado na regressão do LASSO para chegar a uma combinação esparsa das previsões da árvore. A motivação é produzir modelos que sejam mais concisos e executem mais rapidamente na produção.
Zelazny7
Encontrei problemas semelhantes recentemente e descobri no artigo original de Friedman que ele projetou uma função de perda especialmente para problemas de classificação binária. Espero que seja útil. Além disso, você tem alguma idéia de como estendê-lo a problemas de classificação de várias classes? Ou qual é a sua abordagem para problemas de classificação de várias classes?
Quan

Respostas:

5

Isso parece um pouco com o aumento da árvore gradiente. A idéia de impulsionar é encontrar a melhor combinação linear de uma classe de modelos. Se ajustamos uma árvore aos dados, estamos tentando encontrar a árvore que melhor explica a variável de resultado. Se usarmos o reforço, estamos tentando encontrar a melhor combinação linear de árvores.

No entanto, usando o boosting, somos um pouco mais eficientes, pois não temos uma coleção de árvores aleatórias, mas tentamos construir novas árvores que funcionam com os exemplos que ainda não podemos prever bem.

Para obter mais informações, sugiro a leitura do capítulo 10 dos Elementos de aprendizagem estatística: http://statweb.stanford.edu/~tibs/ElemStatLearn/

Embora essa não seja uma resposta completa da sua pergunta, espero que ajude.

Sven
fonte
3
Obrigado. Desde que publiquei essa pergunta, me familiarizei muito com o pacote GBM do R. Meu processo agora envolve a construção de um modelo GBM de, por exemplo, 10.000 árvores e a execução de todas as 10.000 árvores através do GLMnet para executar a regressão LASSO nas árvores. Isso resulta em um modelo de GBM compactado com pouca ou nenhuma perda de desempenho (e às vezes um aumento).
precisa saber é o seguinte
@ Zelazny7 E quanto aos dados de validação / teste difíceis Prevê bem?
josh
Sim, todos os meus testes são realizados de forma independente, sem informar o desenvolvimento. O desempenho não diminui na maioria dos casos. Às vezes é um pouco pior, às vezes até melhora.
Zelazny7
1
@ Zelazny7 Eu também segui o mesmo procedimento (no meu último emprego), com as mesmas experiências.
Matthew Drury
Você deve estar interessado em alguma coisa ... O próprio Hastie sugere árvores de pós-processamento de floresta aleatória ou reforço usando o LASSO. Ele mencionou está neste vídeo às 30:10.
Jonathan