Recursos de classificação em regressão logística

10

Eu usei regressão logística. Eu tenho seis recursos, quero conhecer os recursos importantes neste classificador que influenciam o resultado mais do que outros recursos. Usei o Information Gain, mas parece que ele não depende do classificador usado. Existe algum método para classificar os recursos de acordo com sua importância com base em um classificador específico (como Regressão Logística)? qualquer ajuda seria muito apreciada.

BlueGirl
fonte
3
A regressão logística não é um classificador. Reescreva sua pergunta para refletir que a regressão logística é um modelo de estimativa de probabilidade direta.
Frank Harrell
11
Além do argumento levantado por FrankHarrell, você analisou os valores- dos seus coeficientes estimados? Definitivamente, não é a melhor maneira de classificar os recursos, mas pode oferecer um ponto de partida. p
usεr11852
9
Claro, a regressão logística está estimando probabilidades e não classificando explicitamente as coisas, mas quem se importa? Geralmente, o objetivo é decidir qual classe é mais provável e não há nada errado em chamá-lo de classificador, se é para isso que você está usando.
dsaxton

Respostas:

5

Eu acho que a resposta que você está procurando pode ser o algoritmo Boruta . Esse é um método de wrapper que mede diretamente a importância dos recursos no sentido de "toda a relevância" e é implementado em um pacote R , que produz gráficos agradáveis, como esse enredoonde a importância de qualquer recurso está no eixo y e é comparada a um null plotado em azul aqui. Esta postagem do blog descreve a abordagem e eu recomendo que você a leia como uma introdução muito clara.

babelproofreader
fonte
Boa sugestão (+1). Eu acho que é um pouco exagerado para esta aplicação, mas é uma boa adição. Eu definitivamente aprecio que ele se sairá bem em situações . Você conhece algum estudo de revisão comparativa em que foi comparado com outros algoritmos de classificação? p>>n
usεr11852
@ usεr11852 Não, não sei. Só me deparei com isso na última semana.
Babelproofreader
Hmmm ... OK, Boruta parece muito promissor, mas sempre cético em relação a grandes novos algoritmos até vê-los como partes de um estudo mais amplo e ver os casos em que eles não conseguem se destacar ( nenhum teorema do almoço grátis ).
usεr11852
Idéia interessante, mas não está relacionada à regressão logística.
24516 Frank Harrell
"Boruta é um método de seleção de recursos, não um método de classificação de recursos" Veja as perguntas frequentes na página inicial dos pacotes
steadfish
3

Para começar a entender como classificar variáveis ​​por importância para modelos de regressão, você pode começar com regressão linear. Uma abordagem popular para classificar a importância de uma variável em um modelo de regressão linear é decompor em contribuições atribuídas a cada variável. Mas a importância das variáveis ​​não é direta na regressão linear devido a correlações entre variáveis. Consulte o documento que descreve o método PMD (Feldman, 2005) [ 3 ]. Outra abordagem popular é a média de pedidos (LMG, 1980) [ 2 ].R2

Não há muito consenso sobre como classificar variáveis ​​para regressão logística. Uma boa visão geral deste tópico é apresentada em [ 1 ], que descreve adaptações das técnicas de importância relativa da regressão linear usando Pseudo- para regressão logística.R2

Uma lista das abordagens populares para classificar a importância dos recursos nos modelos de regressão logística é:

  1. Correlação logística pseudo-parcial (usando Pseudo- )R2
  2. Adequação: a proporção da probabilidade de log do modelo completo que é explicada por cada preditor individualmente
  3. Concordância: indica a capacidade de um modelo de diferenciar entre as variáveis ​​de resposta positiva e negativa. Um modelo separado é construído para cada preditor e o escore de importância é a probabilidade prevista de verdadeiros positivos com base apenas nesse preditor.
  4. Valor das informações: os valores das informações quantificam a quantidade de informações sobre o resultado obtido de um preditor. É baseado em uma análise de cada preditor, por sua vez, sem levar em consideração os outros preditores.

Referências:

  1. Sobre a medição da importância relativa de variáveis ​​explicativas em uma regressão logística
  2. Importância relativa dos regressores lineares em R
  3. Importância e valor relativo, Barry Feldman (método PMD)
Sandeep S. Sandhu
fonte
0

Não se assuste. A regressão logística (LR) pode muito bem ser um esquema de classificação. O LR minimiza a seguinte perda: onde e são o vetor de recurso e o vetor de destino, por exemplo, do seu conjunto de treinamento. Essa função se origina da probabilidade conjunta de todos os exemplos de treinamento, o que explica sua natureza probabalística, embora a utilizemos para classificação. Na equação está o seu vetor de peso seu viés. Espero que você saiba o que

minw,bi=1nlog(1+exp(yifw,b(xi)))+λw2
xiyiiwbfw,b(xi)é. O último termo no problema de minimização é o termo de regularização, que, entre outras coisas, controla a generalização do modelo.

Supondo que todas as suas sejam normalizadas, por exemplo, dividindo-se pela magnitude de , é fácil ver quais variáveis ​​são mais importantes: aquelas que são maiores em relação às outras ou (no lado negativo) ) menores que os outros. Eles influenciam mais a perda.xx

Se você está interessado em encontrar as variáveis ​​que realmente são importantes e, no processo, não se importa de chutar algumas, pode regularizar sua função de perda: min w , b n i = 1 log ( 1 + exp ( - y i f w , b ( x i ) ) ) + λ | w |1

minw,bi=1nlog(1+exp(yifw,b(xi)))+λ|w|

Os derivados ou o regularizador são bem diretos, portanto não os mencionarei aqui. O uso dessa forma de regularização e de um apropriado fará com que os elementos menos importantes em se tornem zero e os outros não.wλw

Eu espero que isso ajude. Pergunte se você tiver mais perguntas.

pAt84
fonte
4
LR não é um esquema de classificação. Qualquer uso da classificação ocorre como uma etapa de pós-estimativa após a definição da função de utilidade / custo. Além disso, o PO não perguntou sobre a estimativa de máxima verossimilhança penalizada. Para fornecer evidências da importância relativa das variáveis ​​na regressão, é muito fácil usar o autoinicializador para obter limites de confiança para as fileiras de informações preditivas adicionais fornecidas por cada preditor. Um exemplo aparece no capítulo 4 do Regressão Modelagem Estratégias cujas notas e código R on-line estão disponíveis em biostat.mc.vanderbilt.edu/RmS#Materials
Frank Harrell
4
Harrell, por favor. É óbvio que estamos abordando isso de dois lados diferentes. Você é da estatística e eu sou do aprendizado de máquina. Eu respeito você, sua pesquisa e sua carreira, mas você é muito livre para formular sua própria resposta e deixar o OP decidir qual deles ele considera a melhor resposta para sua pergunta. Estou interessado em aprender, por isso, ensine sua abordagem, mas não me faça comprar seu livro.
pAt84
11
Vou apenas observar que a regressão logística foi desenvolvida pelo estatístico DR Cox em 1958, décadas antes da existência do aprendizado de máquina. Também é importante observar que a "função de perda" (talvez chamada de função objetiva talvez?) Que você formulou não tem qualquer relação com a classificação. E o que implicava que minhas extensas anotações e arquivos de áudio disponíveis on-line com todas as informações a que me referi custaram alguma coisa?
24516 Frank Harrell
2
Votei nos dois comentários iniciais, pois ambos levantam pontos válidos. Comentários posteriores um pouco como
briguinhas
4
PS Tentando uma maneira mais clara de dizer isso, otimizar a previsão / estimativa leva a decisões ótimas, porque a função de utilidade é aplicada em uma segunda etapa e pode não ter relação com os preditores. A otimização de previsão / estimativa não otimiza a classificação e vice-versa. A otimização da classificação equivale ao uso de uma função de utilitário estranha, personalizada para o conjunto de dados em questão e pode não se aplicar a novos conjuntos de dados. As pessoas que realmente desejam otimizar a classificação (não recomendado) podem usar um método que ignora completamente a estimativa / previsão.
24516 Frank Harrell