Floresta aleatória em dados agrupados

10

Estou usando floresta aleatória em dados agrupados de alta dimensão (50 variáveis ​​numéricas de entrada) que possuem uma estrutura hierárquica. Os dados foram coletados com 6 repetições em 30 posições de 70 objetos diferentes, resultando em 12600 pontos de dados, que não são independentes.

Parece que a floresta aleatória está ajustando demais os dados, já que o erro oob é muito menor que o erro que obtemos ao deixar dados de um objeto fora durante o treinamento e prever o resultado do objeto excluído na floresta aleatória treinada. Além disso, correlacionei resíduos.

Eu acho que o sobreajuste é causado porque a floresta aleatória espera dados independentes. É possível informar a floresta aleatória sobre a estrutura hierárquica dos dados? Ou existe outro método poderoso de agrupamento ou retração que pode lidar com dados agrupados de alta dimensão com uma forte estrutura de interação?

Alguma dica de como posso fazer melhor?

Beate
fonte
Qual é a natureza dos dados hierárquicos? Permite usar as folhas dos dados como pontos de dados?
casperOne
11
Você considerou iniciar o nível mais alto da hierarquia, e não o indivíduo?
generic_user

Respostas:

1

Muito tarde para a festa também, mas acho que isso pode estar relacionado a algo que fiz alguns anos atrás. Esse trabalho foi publicado aqui:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

e trata de lidar com a correlação variável no conjunto de árvores de decisão. Você deve dar uma olhada na bibliografia que aponta muitas propostas para lidar com esse tipo de problema (que é comum na área "genética").

O código fonte está disponível aqui (mas na verdade não é mais mantido).

0asa
fonte
-1

O ajuste excessivo da floresta aleatória pode ser causado por diferentes razões e depende muito dos parâmetros de RF. Não está claro em sua postagem como você ajustou seu RF.

Aqui estão algumas dicas que podem ajudar:

  1. Aumentar o número de árvores

  2. Ajuste a profundidade máxima das árvores. Este parâmetro depende muito do problema em questão. O uso de árvores menores pode ajudar no problema de sobreajuste.

Bella Fadida
fonte
2
Muito tarde para a parte, mas esta resposta não resolverá nenhum problema devido à natureza hierárquica do conjunto de dados.
cbeleites descontente com SX