Importância variável randomForest valores negativos

10

Estou me perguntando se é uma boa idéia remover essas variáveis ​​com um valor de importância variável negativo ("% IncMSE") em um contexto de regressão. E se me der uma previsão melhor? O que você acha?

Giuseppe
fonte

Respostas:

5

A importância variável na floresta Aleatória é calculada da seguinte forma:

  1. Inicialmente, o MSE do modelo é calculado com as variáveis ​​originais
  2. Então, os valores de uma única coluna são permutados e o MSE é calculado novamente. Por exemplo, se uma coluna (Col1) obtiver os valores 1,2,3,4, e uma permutação aleatória dos valores resultar em 4,3,1,2. Isso resulta em um MSE1. Então, um aumento no MSE, ou seja, MSE1 - MSE, significaria a importância da variável.

  3. Esperamos que a diferença seja positiva, mas nos casos de um número negativo, isso indica que a permutação aleatória funcionou melhor. Pode-se inferir que a variável não tem um papel na previsão, ou seja, não é importante.

Espero que isto ajude!

Por favor, consulte o link a seguir para uma explicação elaborada!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean

Amol Modi
fonte
3

Isso pode ser apenas uma flutuação aleatória (por exemplo, se você tiver ntree pequeno).

Caso contrário, isso pode mostrar que você tem uma quantidade séria de paradoxos em seus dados, ou seja, pares de objetos com preditores quase idênticos e resultados muito diferentes. Nesse caso, eu verificaria duas vezes se o modelo realmente faz algum sentido e começaria a pensar em como conseguir mais atributos para resolvê-los.


fonte
2
Você poderia elaborar um pouco mais sobre os "paradoxos nos dados"? Não entendi direito e gostaria de entender o que você está explicando.
JEquihua 31/03