Eu usei regressão logística. Eu tenho seis recursos, quero conhecer os recursos importantes neste classificador que influenciam o resultado mais do que outros recursos. Usei o Information Gain, mas parece que ele não depende do classificador usado. Existe algum método para classificar os recursos de acordo com sua importância com base em um classificador específico (como Regressão Logística)? qualquer ajuda seria muito apreciada.
10
Respostas:
Eu acho que a resposta que você está procurando pode ser o algoritmo Boruta . Esse é um método de wrapper que mede diretamente a importância dos recursos no sentido de "toda a relevância" e é implementado em um pacote R , que produz gráficos agradáveis, como onde a importância de qualquer recurso está no eixo y e é comparada a um null plotado em azul aqui. Esta postagem do blog descreve a abordagem e eu recomendo que você a leia como uma introdução muito clara.
fonte
Para começar a entender como classificar variáveis por importância para modelos de regressão, você pode começar com regressão linear. Uma abordagem popular para classificar a importância de uma variável em um modelo de regressão linear é decompor em contribuições atribuídas a cada variável. Mas a importância das variáveis não é direta na regressão linear devido a correlações entre variáveis. Consulte o documento que descreve o método PMD (Feldman, 2005) [ 3 ]. Outra abordagem popular é a média de pedidos (LMG, 1980) [ 2 ].R2
Não há muito consenso sobre como classificar variáveis para regressão logística. Uma boa visão geral deste tópico é apresentada em [ 1 ], que descreve adaptações das técnicas de importância relativa da regressão linear usando Pseudo- para regressão logística.R2
Uma lista das abordagens populares para classificar a importância dos recursos nos modelos de regressão logística é:
Referências:
fonte
Não se assuste. A regressão logística (LR) pode muito bem ser um esquema de classificação. O LR minimiza a seguinte perda: onde e são o vetor de recurso e o vetor de destino, por exemplo, do seu conjunto de treinamento. Essa função se origina da probabilidade conjunta de todos os exemplos de treinamento, o que explica sua natureza probabalística, embora a utilizemos para classificação. Na equação está o seu vetor de peso seu viés. Espero que você saiba o que
Supondo que todas as suas sejam normalizadas, por exemplo, dividindo-se pela magnitude de , é fácil ver quais variáveis são mais importantes: aquelas que são maiores em relação às outras ou (no lado negativo) ) menores que os outros. Eles influenciam mais a perda.x x
Se você está interessado em encontrar as variáveis que realmente são importantes e, no processo, não se importa de chutar algumas, pode regularizar sua função de perda: min w , b n ∑ i = 1 log ( 1 + exp ( - y i f w , b ( x i ) ) ) + λ | w |ℓ1
Os derivados ou o regularizador são bem diretos, portanto não os mencionarei aqui. O uso dessa forma de regularização e de um apropriado fará com que os elementos menos importantes em se tornem zero e os outros não.wλ w
Eu espero que isso ajude. Pergunte se você tiver mais perguntas.
fonte