Eu tenho dados com alguns milhares de recursos e desejo fazer a seleção recursiva de recursos (RFE) para remover os não informativos. Eu faço isso com sinal de intercalação e RFE. No entanto, comecei a pensar, se quero obter o melhor ajuste de regressão (floresta aleatória, por exemplo), quando devo executar o ajuste de parâmetros ( mtry
para RF)? Isto é, como eu entendo acento circunflexo trens RF repetidamente em diferentes subconjuntos recurso com uma mtry fixo. Suponho que o ideal mtry
seja encontrado depois que a seleção de recurso for concluída, mas o mtry
valor que o cursor usa influencia o subconjunto de recursos selecionado? Usar sinal de intercalação com baixa mtry
é muito mais rápido, é claro.
Espero que alguém possa me explicar isso.
Respostas:
Uma coisa que você pode querer considerar são florestas aleatórias regularizadas, projetadas especificamente para a seleção de recursos. Este artigo explica o conceito e como eles diferem das florestas aleatórias normais
Seleção de recursos por meio de árvores regularizadas
Há também um pacote CRAN RRF que é construído sobre o randomForest que permitirá implementá-los facilmente em R. Eu tive sorte com essa metodologia.
Com relação à sua pergunta inicial, o único conselho que posso dar é que, se você tem muita colinearidade, precisa usar tamanhos de árvores menores. Isso permite que o algoritmo determine importância com menos interferência dos efeitos da colinearidade.
fonte
Você pode usar
caretFuncs
Algo assim:Além disso, pode-se verificar o
valSelRF
pacote. Não tenho certeza de como difere doregularized random forest
mencionado aqui.fonte