A poda deve ser evitada para ensacamento (com árvores de decisão)?

8

Eu vim por vários postos e documentos alegando que a poda de árvores em um conjunto de árvores "ensacadas" não é necessária (veja 1 ).

No entanto, é necessariamente (ou pelo menos em alguns casos conhecidos) prejudicial realizar a poda (digamos, com a amostra OOB) nas árvores individuais de um conjunto?

Obrigado!

Tal Galili
fonte

Respostas:

6

Tal,

De um modo geral, a poda prejudicará o desempenho das árvores ensacadas.

Árvores são classificadores instáveis; significando que se você perturbar um pouco os dados, a árvore poderá mudar significativamente. São modelos de baixa tendência, mas de alta variação. A ensacagem geralmente funciona "replicando" o modelo para reduzir a variação (o antigo truque "aumentar o tamanho da amostra").

No entanto, se você terminar com a média de modelos muito semelhantes, não ganhará muito. Se as árvores não forem podadas, elas tendem a ser mais diferentes uma da outra do que se fossem podadas. Isso tem o efeito de "correlelacionar" as árvores para que você calcule a média das árvores que não são muito semelhantes. Esse também é o motivo pelo qual as florestas aleatórias adicionam o ajuste adicional da seleção do preditor aleatório. Isso força as árvores a serem muito diferentes.

O uso de árvores não podadas aumentará o risco de sobreaquecimento, mas o modelo calcula a média mais do que compensa isso (de modo geral).

HTH,

Máx.

topepo
fonte
Obrigado Max, sua resposta é útil e perspicaz. Atenciosamente, Tal
Tal Galili 4/13