Como combinar resultados de regressão logística e floresta aleatória?

12

Eu sou novo no aprendizado de máquina. Eu apliquei regressão logística e floresta aleatória em um mesmo conjunto de dados. Então, recebo importância variável (coeficiente absoluto para regressão logística e importância variável para floresta aleatória). Estou pensando em combinar os dois para obter uma importância variável final. Alguém pode compartilhar sua experiência? Eu verifiquei modelagem de ensacamento, reforço, ensemble, mas eles não são o que eu preciso. Eles são mais uma combinação de informações para o mesmo modelo entre réplicas. O que estou procurando é combinar o resultado de vários modelos.

user1946504
fonte
5
A modelagem de conjunto também pode combinar modelos. Veja a votação majoritária, por exemplo. Veja também empilhamento.
pat
4
Na verdade, o uso do tamanho dos coeficientes não é uma boa maneira de determinar a "importância variável" na regressão logística. Mesmo se você observar os coeficientes padronizados, esse não é um bom método. Por quê? Lembre-se de que os coeficientes são apenas estimativas e há um erro associado a eles. Selecionar coeficientes por tamanho significa que você seleciona aqueles para os quais você superestimou o tamanho do coeficiente e descarta aqueles para os quais você subestimou o tamanho do coeficiente.
user765195

Respostas:

12

Provavelmente depende do motivo pelo qual você deseja usar variáveis ​​importantes. Deve ser usado como critério para seleção de características para um terceiro modelo de classificação? Nesse caso, você pode tentar calcular uma média ponderada das importâncias variáveis ​​(talvez após normalizar cada vetor de importância variável individual para o comprimento da unidade) para vários valores e o peso médio e, em seguida, selecionar o valor que produz a melhor pontuação validada cruzada para a final modelo.

Quanto à combinação do resultado do modelo de regressão logística e do modelo de floresta aleatória (sem considerar as importâncias variáveis), a seguinte postagem no blog é muito informativa e demonstra que uma única média da saída é um método de conjunto simples, mas muito eficaz para modelos de regressão.

ogrisel
fonte
1
Obrigado por sua resposta. O blog que você mencionou é um estudo realmente interessante. Eu acho que entendi a ideia. A única preocupação é sua fórmula de entropia cruzada. Parece diferente do que encontrei online. Seu uso: cross.entropy <- função (alvo, predito) {predito = pmax (1e-10, pmin (1-1e-10, predito)) - soma (alvo * log (predito) + (1 - alvo) * log (1 - predito))}
user1946504
2
e quando apliquei a mesma idéia ao meu próprio conjunto de dados, usei o erro de classificação incorreta como critério, o gráfico não é nada semelhante. A floresta aleatória resulta muito melhor que a regressão logística. erro de classificação incorreta de RF é 0,2, para LR é 0,4. Ao mesmo tempo, a AUC para RF é 0,8, para LR é 0,73.
user1946504
5

(Comentando a resposta e feedback acima)

Obrigado por ler o blog!

A função de erro de entropia cruzada tem um pequeno truque, truncando os valores previstos para [1e-10, 1-1e-10] como uma maneira barata e fácil de evitar erros nas funções de log. Caso contrário, esta é a fórmula padrão.

Para o conjunto de dados, é muito possível ter conjuntos de dados em que uma floresta aleatória é muito superior a um log. reg. e o log. reg. não acrescenta nada ao conjunto. Obviamente, verifique se você está usando dados de espera - uma floresta aleatória quase sempre terá resultados superiores nos dados de treinamento devido a parâmetros muito mais eficazes.

OverKAnalytics
fonte