Eu tenho um conjunto de dados composto por 24 linhas de dados mensais. Os recursos são PIB, chegadas no aeroporto, mês e alguns outros. A variável dependente é o número de visitantes de um destino turístico popular. A Random Forest seria adequada para esse problema?
Os dados não são públicos, por isso não consigo postar uma amostra.
random-forest
small-sample
hughesdan
fonte
fonte
Respostas:
A floresta aleatória é basicamente a reamostragem de bootstrap e o treinamento de árvores de decisão nas amostras. Portanto, a resposta à sua pergunta precisa abordar essas duas.
A reamostragem de bootstrap não é uma cura para pequenas amostras . Se você tiver apenas vinte e quatro observações em seu conjunto de dados, cada uma das amostras coletadas com a substituição desses dados consistirá em não mais do que os vinte e quatro valores distintos. Embaralhar os casos e não desenhar alguns deles não mudaria muito sua capacidade de aprender algo novo sobre a distribuição subjacente. Portanto, uma pequena amostra é um problema para a inicialização.
As árvores de decisão são treinadas dividindo os dados condicionalmente nas variáveis preditoras, uma variável de cada vez, para encontrar subamostras que têm maior poder discriminatório. Se você tiver apenas vinte e quatro casos, diga que, se tivesse sorte e todas as divisões tivessem o mesmo tamanho, com duas divisões você terminaria com quatro grupos de seis casos, com divisões em árvores, com oito grupos de três. Se você calculasse médias condicionais nas amostras (para prever valores contínuos em árvores de regressão ou probabilidades condicionais em árvores de decisão), basearia sua conclusão apenas nesses poucos casos! Portanto, as subamostras que você usaria para tomar as decisões seriam ainda menores que os dados originais.
Com amostras pequenas, geralmente é aconselhável usar métodos simples . Além disso, você pode acompanhar a pequena amostra usando informações preliminares na configuração bayesiana (se você tiver algum conhecimento razoável de dados insuficientes sobre o problema), para que possa considerar o uso de algum modelo bayesiano personalizado.
fonte
Por um lado, esse é um pequeno conjunto de dados, e a floresta aleatória requer muitos dados.
Por outro lado, talvez algo seja melhor que nada. Não há mais nada a dizer do que "Experimente e veja". Você decide se um modelo específico é ou não "bom"; além disso, não podemos dizer se algum modelo é adequado para uma finalidade específica (nem você deseja que nós - não há custo para nós se estivermos errados!).
fonte