Quando usar a impureza de Gini e quando usar o ganho de informações?

11

Alguém pode me explicar quando usar a impureza de Gini e o ganho de informações nas árvores de decisão? Você pode me dar situações / exemplos de quando é melhor usar qual?

Jack Twain
fonte

Respostas:

9

Você deve experimentá-los como parte da sintonia dos parâmetros.

Teoricamente, a impureza de Gini minimiza a pontuação de Brier, enquanto o ganho de entropia / informação minimiza a perda de log, de modo que quem você está interessado faz alguma diferença. No entanto, outras coisas, como a probabilidade de cada um descobrir efeitos multivariados no crescimento de árvores gananciosas, em vez de se "distrair" com os univariados que também atuam nas coisas. Ou seja, você pode obter uma melhor generalização a partir de uma métrica de impureza que nem sempre seleciona a divisão "melhor".

Na prática (no contexto de rf, mais do que carrinho), descobri que a entropia funciona melhor para conjuntos de dados de baixa dimensão mais limpos, nos quais você está tentando ajustar um sinal mais complexo o melhor possível, enquanto o gini funciona melhor para barulhentos e altamente dimensionais. aqueles em que você está tentando descobrir um sinal simples dentre muitos sinais ruidosos em potencial. Esta é apenas a minha experiência e quase certamente não será válida em todos os casos.

Nota: iniciado como um comentário, mas excluído e movido para uma resposta para formatar uma expansão.

Ryan Bressler
fonte