Como os algoritmos de aprendizado da árvore de decisão lidam com valores ausentes (sob o capô)

Existem vários métodos usados por várias árvores de decisão. Simplesmente ignorar os valores ausentes (como o ID3 e outros algoritmos antigos fazem) ou tratar os valores ausentes como outra categoria (no caso de um recurso nominal) não é um tratamento real de valores ausentes. No entanto, essas abordagens foram usadas nos estágios iniciais do desenvolvimento da árvore de decisão.

As abordagens reais de manipulação de dados ausentes não usam pontos de dados com valores ausentes na avaliação de uma divisão. No entanto, quando nós filhos são criados e treinados, essas instâncias são distribuídas de alguma forma.

Conheço as seguintes abordagens para distribuir as instâncias de valor ausentes para nós filho:

tudo vai para o nó que já tem o maior número de instâncias (CART, não é a regra principal)
distribuir para todos os filhos, mas com pesos diminuídos, proporcional ao número de instâncias de cada nó filho (C45 e outros)
distribuir aleatoriamente para apenas um único nó filho, eventualmente de acordo com uma distribuição categórica (vi isso em várias implementações do C45 e CART para um tempo de execução mais rápido)
construir, classificar e usar substitutos para distribuir instâncias para um nó filho, onde substitutos são recursos de entrada que se assemelham melhor à maneira como o recurso de teste envia instâncias de dados para o nó filho esquerdo ou direito (CART, se isso falhar, a regra da maioria é usada)

rapaio
fonte

Como os algoritmos de aprendizado da árvore de decisão lidam com valores ausentes (sob o capô)

Respostas: