Florestas aleatórias on-line adicionando mais árvores de decisões únicas

13

Uma floresta aleatória (RF) é criada por um conjunto de árvores de decisão (DT). Usando o empacotamento, cada DT é treinado em um subconjunto de dados diferente. Portanto, existe alguma maneira de implementar uma floresta aleatória on-line adicionando mais árvores de decisão em novos dados?

Por exemplo, temos 10 mil amostras e treinamos 10 TDs. Em seguida, obtemos 1K amostras e, em vez de treinar novamente a RF completa, adicionamos uma nova TD. A previsão é feita agora pela média bayesiana de 10 + 1 TDs.

Além disso, se mantivermos todos os dados anteriores, os novos DTs podem ser treinados principalmente nos novos dados, onde a probabilidade de escolher uma amostra é ponderada, dependendo de quantas vezes já foram escolhidas.

tashuhka
fonte

Respostas:

8

um artigo recente sobre esse assunto ( Florestas Aleatórias On-line ), vindo da visão computacional. Aqui está uma implementação e uma apresentação: Florestas aleatórias on line em 10 minutos

Emre
fonte
A implementação que você mencionou segue uma estratégia de cultivo de árvores, como as florestas Mondrian ( arxiv.org/abs/1406.2673 ). Portanto, o número de árvores é constante enquanto o número de divisões é aumentado. Minha pergunta se concentra no aumento do número de árvores para novas amostras, mantendo-se intocado as árvores previamente treinadas.
tashuhka
1
Gosta disso ? Você também não quer derrubar árvores, se apropriado?
Emre
Obrigado. Isso é mais parecido com o que estou procurando. Nesse caso, use o RF para selecionar recursos de sinais variantes no tempo. No entanto, a implementação específica e a validade do método não são claras, você sabe se eles publicaram alguma coisa (o Google não ajudou)?
tashuhka
Obrigado pelo link! Eu posso ver que eles realmente atualizam todas as árvores anteriores usando uma estratégia de crescimento de árvores, e estou interessado em criar novas DTs com os novos dados, mantendo intocadas as árvores antigas.
Tashuhka 31/10