Eu não entendo exatamente o que se entende por tamanho do nó. Eu sei o que é um nó de decisão, mas não o tamanho do
Eu não entendo exatamente o que se entende por tamanho do nó. Eu sei o que é um nó de decisão, mas não o tamanho do
Se eu entendi corretamente, em um algoritmo de aprendizado de máquina, o modelo precisa aprender com sua experiência, ou seja, quando o modelo fornece uma previsão errada para os novos casos, ele deve se adaptar às novas observações e, com o tempo, o modelo se torna cada vez melhor. . Não vejo que...
Estou experimentando florestas aleatórias com o scikit-learn e estou obtendo ótimos resultados do meu conjunto de treinamento, mas resultados relativamente ruins no meu conjunto de testes ... Aqui está o problema (inspirado no poker) que estou tentando resolver: Dadas as cartas do jogador A, as...
A implementação do ER é mais eficiente ( Extreme Gradient Boostingé semelhante ao aumento do gradiente) - a diferença é importante do ponto de vista prático? Há um pacote R que os implementa. É um novo algoritmo que supera a implementação "genérica" (pacote RandomForest da R) não apenas em termos...
Florestas aleatórias são usadas para regressão. No entanto, pelo que entendi, eles atribuem um valor-alvo médio a cada folha. Como há apenas folhas limitadas em cada árvore, existem apenas valores específicos que a meta pode atingir em nosso modelo de regressão. Portanto, não é apenas uma regressão...
Estou tentando entender como posso obter a importância do recurso de uma variável categórica que foi dividida em variáveis dummy. Estou usando o scikit-learn, que não lida com variáveis categóricas para você, como R ou H2O. Se eu dividir uma variável categórica em variáveis dummy, obtenho...
As florestas aleatórias (RF) são um método competitivo de modelagem / mineração de dados. Um modelo de RF possui uma saída - a variável de saída / previsão. A abordagem ingênua para modelar várias saídas com RFs seria construir uma RF para cada variável de saída. Portanto, temos N modelos...
Depois de criar um modelo de floresta aleatória (regressão) em R, a chamada rf$importancefornece duas medidas para cada variável preditora, %IncMSEe IncNodePurity. A interpretação de que variáveis preditoras com %IncMSEvalores menores são mais importantes que variáveis preditoras com...
Estou trabalhando com muitos algoritmos: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear e rbf), KNN, LDA e XGBoost. Todos eles foram bem rápidos, exceto o SVM. Foi quando soube que ele precisa de redimensionamento de recursos para funcionar mais rapidamente. Então comecei a me...
Estou tentando identificar o melhor modelo para prever os preços dos automóveis, usando os preços e os recursos disponíveis em sites de anúncios classificados para automóveis. Para isso, usei alguns modelos da biblioteca scikit-learn e modelos de redes neurais do pybrain e neurolab. A abordagem...
Então, eu sou um novato no campo ML e tento fazer alguma classificação. Meu objetivo é prever o resultado de um evento esportivo. Reuni alguns dados históricos e agora tente treinar um classificador. Eu obtive cerca de 1200 amostras, 0,2 delas foram separadas para fins de teste, outras colocadas na...
A máquina de aumento de gradiente de Friedman pode obter melhor desempenho do que a Random Forest de Breiman ? Em caso afirmativo, em quais condições ou que tipo de conjunto de dados pode melhorar o
Estou explorando diferentes métodos de classificação para um projeto em que estou trabalhando e estou interessado em experimentar as Florestas Aleatórias. Estou tentando me educar ao longo do curso e gostaria de receber qualquer ajuda fornecida pela comunidade do CV. Dividi meus dados em conjuntos...
Eu tenho um conjunto de dados com principalmente variáveis financeiras (120 recursos, exemplos de 4k) que são altamente correlacionadas e muito barulhentas (indicadores técnicos, por exemplo), então eu gostaria de selecionar cerca de 20-30 máx. Para uso posterior no treinamento de modelo...
Estou tentando usar a floresta aleatória para prever o resultado de um conjunto de dados extremamente desequilibrado (a taxa de classe minoritária é de apenas 1% ou até menos). Como o algoritmo tradicional de floresta aleatória minimiza a taxa de erro geral, em vez de prestar atenção especial às...
Minhas variáveis de entrada têm dimensões diferentes. Algumas variáveis são decimais, enquanto outras são centenas. É essencial centralizar (subtrair média) ou escalar (dividir por desvio padrão) essas variáveis de entrada para tornar os dados sem dimensão ao usar floresta...
Estou tentando usar a regressão aleatória de floresta no scikits-learn. O problema é que estou recebendo um erro de teste muito alto: train MSE, 4.64, test MSE: 252.25. É assim que meus dados ficam: (azul: dados reais, verde: previsto): Estou usando 90% para treinamento e 10% para teste. Este...
Gostaria de saber se a floresta aleatória de Breiman (floresta aleatória no pacote R randomForest) usa como critério de divisão (critério para seleção de atributo) o ganho de informações ou o índice Gini? Tentei descobrir isso em http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm e na...
Atualmente, estou ajustando florestas aleatórias para um problema de classificação usando o randomForestpacote em R e não tenho certeza sobre como relatar erros de treinamento para esses modelos. Meu erro de treinamento é próximo de 0% quando o computo usando as previsões que recebo com o...
Suponha que tenhamos uma resposta Y e os preditores X1, ...., Xn. Se tentássemos ajustar Y através de um modelo linear de X1, ...., Xn, e acontecesse que a verdadeira relação entre Y e X1, ..., Xn não fosse linear, poderíamos ser capazes para consertar o modelo, transformando os X de alguma forma e...