Em uma floresta aleatória, o maior% IncMSE é melhor ou pior?

17

Depois de criar um modelo de floresta aleatória (regressão) em R, a chamada rf$importancefornece duas medidas para cada variável preditora, %IncMSEe IncNodePurity. A interpretação de que variáveis ​​preditoras com %IncMSEvalores menores são mais importantes que variáveis ​​preditoras com %IncMSEvalores maiores ?

Que tal para IncNodePurity?

derNincompoop
fonte

Respostas:

30

% IncMSE é a medida mais robusta e informativa. É o aumento na mse de previsões (estimado com CV fora da bolsa) como resultado da permuta da variável j (valores aleatoriamente aleatórios).

  1. crescer floresta de regressão. Computar OOB-mse, nomeie esse mse0.
  2. para 1 a j var: permute valores da coluna j, preveja e calcule OOB-mse (j)
  3. % IncMSE de j'th é (mse (j) -mse0) / mse0 * 100%

quanto maior o número, mais importante

IncNodePurity refere-se à função de perda que pela melhor divisão é escolhida. A função de perda é mse para regressão e gini-impureza para classificação. Variáveis ​​mais úteis alcançam aumentos mais altos na pureza do nó, ou seja, encontrar uma divisão que tenha uma alta 'variação' entre nós e uma pequena 'variação' dentro do nó. IncNodePurity é enviesado e deve ser usado apenas se o tempo de computação extra do cálculo de% IncMSE for inaceitável. Como leva apenas 5-25% de tempo extra para calcular% de IncMSE, isso quase nunca aconteceria.

Uma pergunta e resposta semelhantes

Soren Havelund Welling
fonte