Medidas de importância variável em florestas aleatórias

40

Venho brincando com florestas aleatórias para regressão e estou tendo dificuldade em descobrir exatamente o que as duas medidas de importância significam e como elas devem ser interpretadas.

A importance()função fornece dois valores para cada variável: %IncMSEe IncNodePurity. Existem interpretações simples para esses 2 valores?

Em IncNodePurityparticular, isso é simplesmente a quantidade que o RSS aumenta após a remoção dessa variável?

r machine-learning random-forest importance dcl
fonte

1

Você já olhou ?importance? Há uma explicação lá sobre o que ambas as medidas dizer ...

Nick Sabbe

2

@ Nick Sabbe, eu tenho, e estou tentando envolver minha cabeça em torno deles. Fiquei me perguntando se há alguma interpretação intuitiva agradável para eles.

dcl

42

O primeiro pode ser 'interpretado' da seguinte forma: se um preditor é importante no seu modelo atual, a atribuição de outros valores para esse preditor aleatoriamente, mas 'realisticamente' (ou seja: permutando os valores desse preditor no seu conjunto de dados), deve ter uma influência negativa na previsão, ou seja: usar o mesmo modelo para prever a partir de dados iguais, exceto para uma variável, deve fornecer previsões piores.

Então, você toma uma medida preditiva (MSE) com o conjunto de dados original e, em seguida, com o conjunto de dados 'permutado' e os compara de alguma forma. Uma maneira, principalmente porque esperamos que o MSE original seja sempre menor, a diferença pode ser tomada. Por fim, para tornar os valores comparáveis em relação às variáveis, eles são dimensionados.

Para o segundo: em cada divisão, é possível calcular quanto essa divisão reduz a impureza do nó (para árvores de regressão, de fato, a diferença entre o RSS antes e depois da divisão). Isso é resumido em todas as divisões para essa variável, em todas as árvores.

Nota: uma boa leitura é Elements of Statistical Learning de Hastie, Tibshirani e Friedman ...

Nick Sabbe
fonte

3

Cheers, eu realmente tenho que livro aberto agora :)

DCL

O que significa RSS?

DavideChicco.it 27/10/16

RSS é Soma Residual dos Quadrados

Barker

10

As métricas de importância da floresta aleatória, conforme implementadas no pacote randomForest em R, apresentam peculiaridades, pois os preditores correlacionados obtêm valores de baixa importância.

http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf

Eu tenho uma implementação modificada de florestas aleatórias no CRAN que implementa sua abordagem de estimar valores empíricos de p e taxas de falsas descobertas, aqui

http://cran.r-project.org/web/packages/pRF/index.html

Ankur Chakravarthy
fonte

1

isso explica a saída diferente de importância variável se você usar randomForest com o pacote de sinal de intercalação como caret::train(method="rf", importance = TRUE, ...)??

Agile Bean

Medidas de importância variável em florestas aleatórias

Respostas: