Estou usando o algoritmo de floresta aleatória como um classificador robusto de dois grupos em um estudo de microarray com milhares de recursos.
- Qual é a melhor maneira de apresentar a floresta aleatória para que haja informações suficientes para torná-la reproduzível em um artigo?
- Existe um método de plotagem em R para realmente plotar a árvore, se houver um pequeno número de recursos?
- A estimativa de taxa de erro OOB é a melhor estatística a ser citada?
r
machine-learning
classification
random-forest
microarray
danielsbrewer
fonte
fonte
Respostas:
Em relação à reprodução, a melhor maneira é fornecer pesquisa reproduzível (código e dados) junto com o artigo. Disponibilize-o em seu site ou em um site de hospedagem (como o github).
Em relação à visualização, Leo Breiman fez um trabalho interessante sobre isso (consulte sua página inicial , em particular a seção de gráficos ).
Mas se você estiver usando R, o
randomForest
pacote terá algumas funções úteis:E
Não conheço uma maneira simples de plotar uma árvore, mas você pode usar a
getTree
função para recuperar a árvore e plotar isso separadamente.A apresentação de Strobl / Zeileis sobre "Por que e como usar medidas aleatórias de importância variável da floresta (e como você não deve)" tem exemplos de árvores que devem ter sido produzidas dessa maneira. Esta postagem no blog sobre modelos de árvores tem alguns bons exemplos de gráficos de árvores CART que você pode usar, por exemplo.
Como o @chl comentou, uma única árvore não é especialmente significativa nesse contexto; portanto, sem usá-la para explicar o que é uma floresta aleatória, eu não a incluiria em um artigo.
fonte
plot.randomForest
mostra como o erro OOB e o erro OOB da classe evoluíram com o aumento do número de árvores;varImpPlot
mostra medidas de importância de atributos para os principais atributos eMDSplot
todos os objetos plotados na projeção 2D da medida de proximidade de objetos de RF.MDSplot()
função. Devo admitir que frequentemente uso RFs como uma maneira de destacar grupos de indivíduos (com base na medida de proximidade de RF) em vez de selecionar os melhores recursos. Os médicos costumam ler muito facilmente esses gráficos do que o gráfico de pontos var. importância ...fonte
Lembre-se das advertências nas outras respostas sobre o enredo ser necessariamente significativo. Mas se você deseja um gráfico para fins ilustrativos / pedagógicos, o seguinte trecho de R pode ser útil. Não é difícil adicionar "ponto de divisão" ao texto da borda, se necessário.
fonte