Perguntas com a marcação «random-forest»

A floresta aleatória é um classificador de aprendizado de máquina baseado na escolha de subconjuntos aleatórios de variáveis ​​para cada árvore e no uso da saída em árvore mais frequente como classificação geral.

29
Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

24
O Random Forest superajustou?

Eu tenho lido sobre florestas aleatórias, mas não consigo realmente encontrar uma resposta definitiva sobre o problema do excesso de ajuste. De acordo com o artigo original de Breiman, eles não devem se superestimar ao aumentar o número de árvores na floresta, mas parece que não há consenso sobre...

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

15
Método de pontuação RandomForestClassifier OOB

A implementação da floresta aleatória no scikit-learn está usando a precisão média como método de pontuação para estimar o erro de generalização com amostras prontas para uso? Isso não é mencionado na documentação, mas o método score () relata a precisão média. Eu tenho um conjunto de dados...

12
Importância do recurso com recursos categóricos de alta cardinalidade para regressão (variável dependente numérica)

Eu estava tentando usar as importâncias de recursos da Random Forests para executar alguma seleção empírica de recursos para um problema de regressão em que todos os recursos são categóricos e muitos deles têm muitos níveis (da ordem de 100-1000). Dado que a codificação one-hot cria uma variável...

12
Quantas células LSTM devo usar?

Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of...