Eu tenho um conjunto de dados com 5.818.446 linhas e 51 colunas, onde 50 delas são preditores. Minha resposta é quantitativa, por isso estou interessado em um modelo de regressão. Estou tentando ajustar uma floresta aleatória aos meus dados usando o pacote de intercalação. No entanto, não tenho RAM suficiente para fazê-lo.
Eu tenho procurado soluções para o meu problema. Além de ter um computador mais poderoso, parece que posso usar o ensacamento para resolver o meu problema. Portanto, minha ideia é a seguinte:
Criar partições de trem e teste do meu conjunto de dados original
Amostra com substituição de uma pequena parte do meu conjunto de dados de trem em R (digamos 1%, ou seja, 58.185 linhas)
Ajustar uma floresta aleatória a essa pequena parte dos dados
Salve o resultado do modelo
Repita as etapas 2 a 4 mil vezes
Combine esses 1.000 modelos obtidos nas etapas 2-5
No entanto, a própria floresta aleatória usa empacotamento para ajustar o modelo aos dados e, portanto, não tenho certeza se minha abordagem está correta. Portanto, tenho algumas perguntas para você:
i) Minha abordagem está correta? Quero dizer, como não tenho RAM suficiente no meu sistema, é correto ajustar vários modelos de floresta aleatória diferentes a diferentes pedaços de dados e combiná-los depois?
ii) Supondo que minha abordagem esteja correta, 1% dos dados é uma boa regra geral para o tamanho da minha amostra? Mesmo com 1% dos dados, ainda tenho .
iii) Supondo que minha abordagem esteja correta, há várias repetições para os modelos que devo usar? Pensei em mil por motivos.
fonte
l1
regularização, que normalmente reduz o peso dos componentes insignificantes a quase zero, para que você possa ver por inspeção quais árvores devem manter.Respostas:
Isso não aborda suas perguntas específicas, mas a motivação por trás delas. O
bigRF
pacote pode resolver seu problema:Além disso:
fonte