Eu sou novo no aprendizado de máquina. Eu apliquei regressão logística e floresta aleatória em um mesmo conjunto de dados. Então, recebo importância variável (coeficiente absoluto para regressão logística e importância variável para floresta aleatória). Estou pensando em combinar os dois para obter uma importância variável final. Alguém pode compartilhar sua experiência? Eu verifiquei modelagem de ensacamento, reforço, ensemble, mas eles não são o que eu preciso. Eles são mais uma combinação de informações para o mesmo modelo entre réplicas. O que estou procurando é combinar o resultado de vários modelos.
machine-learning
logistic
random-forest
user1946504
fonte
fonte
Respostas:
Provavelmente depende do motivo pelo qual você deseja usar variáveis importantes. Deve ser usado como critério para seleção de características para um terceiro modelo de classificação? Nesse caso, você pode tentar calcular uma média ponderada das importâncias variáveis (talvez após normalizar cada vetor de importância variável individual para o comprimento da unidade) para vários valores e o peso médio e, em seguida, selecionar o valor que produz a melhor pontuação validada cruzada para a final modelo.
Quanto à combinação do resultado do modelo de regressão logística e do modelo de floresta aleatória (sem considerar as importâncias variáveis), a seguinte postagem no blog é muito informativa e demonstra que uma única média da saída é um método de conjunto simples, mas muito eficaz para modelos de regressão.
fonte
(Comentando a resposta e feedback acima)
Obrigado por ler o blog!
A função de erro de entropia cruzada tem um pequeno truque, truncando os valores previstos para [1e-10, 1-1e-10] como uma maneira barata e fácil de evitar erros nas funções de log. Caso contrário, esta é a fórmula padrão.
Para o conjunto de dados, é muito possível ter conjuntos de dados em que uma floresta aleatória é muito superior a um log. reg. e o log. reg. não acrescenta nada ao conjunto. Obviamente, verifique se você está usando dados de espera - uma floresta aleatória quase sempre terá resultados superiores nos dados de treinamento devido a parâmetros muito mais eficazes.
fonte