Uma floresta aleatória (RF) é criada por um conjunto de árvores de decisão (DT). Usando o empacotamento, cada DT é treinado em um subconjunto de dados diferente. Portanto, existe alguma maneira de implementar uma floresta aleatória on-line adicionando mais árvores de decisão em novos dados?
Por exemplo, temos 10 mil amostras e treinamos 10 TDs. Em seguida, obtemos 1K amostras e, em vez de treinar novamente a RF completa, adicionamos uma nova TD. A previsão é feita agora pela média bayesiana de 10 + 1 TDs.
Além disso, se mantivermos todos os dados anteriores, os novos DTs podem ser treinados principalmente nos novos dados, onde a probabilidade de escolher uma amostra é ponderada, dependendo de quantas vezes já foram escolhidas.
fonte