Estou usando floresta aleatória em dados agrupados de alta dimensão (50 variáveis numéricas de entrada) que possuem uma estrutura hierárquica. Os dados foram coletados com 6 repetições em 30 posições de 70 objetos diferentes, resultando em 12600 pontos de dados, que não são independentes.
Parece que a floresta aleatória está ajustando demais os dados, já que o erro oob é muito menor que o erro que obtemos ao deixar dados de um objeto fora durante o treinamento e prever o resultado do objeto excluído na floresta aleatória treinada. Além disso, correlacionei resíduos.
Eu acho que o sobreajuste é causado porque a floresta aleatória espera dados independentes. É possível informar a floresta aleatória sobre a estrutura hierárquica dos dados? Ou existe outro método poderoso de agrupamento ou retração que pode lidar com dados agrupados de alta dimensão com uma forte estrutura de interação?
Alguma dica de como posso fazer melhor?
fonte
Respostas:
Muito tarde para a festa também, mas acho que isso pode estar relacionado a algo que fiz alguns anos atrás. Esse trabalho foi publicado aqui:
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379
e trata de lidar com a correlação variável no conjunto de árvores de decisão. Você deve dar uma olhada na bibliografia que aponta muitas propostas para lidar com esse tipo de problema (que é comum na área "genética").
O código fonte está disponível aqui (mas na verdade não é mais mantido).
fonte
O ajuste excessivo da floresta aleatória pode ser causado por diferentes razões e depende muito dos parâmetros de RF. Não está claro em sua postagem como você ajustou seu RF.
Aqui estão algumas dicas que podem ajudar:
Aumentar o número de árvores
Ajuste a profundidade máxima das árvores. Este parâmetro depende muito do problema em questão. O uso de árvores menores pode ajudar no problema de sobreajuste.
fonte