A que se refere o "tamanho do nó" na Floresta Aleatória?

20

Eu não entendo exatamente o que se entende por tamanho do nó. Eu sei o que é um nó de decisão, mas não o tamanho do nó.

wolfsatthedoor
fonte

Respostas:

24

Uma árvore de decisão funciona por partição recursiva do conjunto de treinamento. Cada nó de uma árvore de decisão está associado a um conjunto de pontos de dados do conjunto de treinamento:tnt

n_t é o tamanho de cada nó

Você pode encontrar o parâmetro nodesizeem alguns pacotes de florestas aleatórias, por exemplo, R : Esse é o tamanho mínimo do nó ; no exemplo acima, o tamanho mínimo do nó é 10. Esse parâmetro define implicitamente a profundidade de suas árvores.

nodesize do pacote florestal aleatório R

Tamanho mínimo dos nós do terminal. Definir esse número maior faz com que árvores menores sejam cultivadas (e, portanto, levam menos tempo). Observe que os valores padrão são diferentes para classificação (1) e regressão (5).

Em outros pacotes, você encontra diretamente o parâmetro depth, por exemplo, WEKA :

-depth do pacote florestal aleatório WEKA

A profundidade máxima das árvores, 0 para ilimitado. (padrão 0)

Simone
fonte
1
O que são 'registros'? Você quer dizer pontos de dados? Por que cada nó está associado a um conjunto de registros? Entendo florestas aleatórias muito bem, mas não sei o que o jargão significa.
wolfsatthedoor
Sim, eu quis dizer ponto de dados. Geralmente, você pode se referir aos pontos de dados como registros, instâncias ou exemplos.
Simone
Portanto, existe uma regra de tamanho mínimo do nó para evitar o excesso de ajuste nas árvores? Eu imagino que depende do tamanho dos dados de treinamento, então talvez uma certa proporção do tamanho do conjunto de dados?
Seanosapien
1
Em florestas aleatórias, as árvores são totalmente crescidas: o tamanho do nó é 1. Evita-se a adaptação excessiva do cultivo de muitas árvores. Na árvore de decisão, é mais complicado. As árvores não estão totalmente crescidas e é preciso fazer a poda para evitar o excesso de ajustes.
Simone
1
Parece que o vinhedo é algum tipo de seleção de recurso para simplificar a árvore e evitar o ajuste excessivo. Eu acho que podar uma única árvore é sempre benéfico. Em vez disso, às vezes, a peneiração pode diminuir a precisão, mas simplifica a árvore.
Simone
2

Não está claro se o tamanho do nó está na amostra "dentro da bolsa" ou no erro "fora da bolsa". Se estiver na amostra "pronta para uso", é um pouco mais restritiva.

Cavaleiro das Trevas
fonte