Importância das variáveis ​​na regressão logística

11

Provavelmente, estou lidando com um problema que provavelmente já foi resolvido centenas de vezes antes, mas não tenho certeza de onde encontrar a resposta.

Ao meio de regressão logística, dadas muitas características tentando prever um valor categórico binário y , estou interessado em selecionar um subconjunto dos recursos que prevêem y bem.x1,...,xnyy

Existe um procedimento semelhante ao laço que pode ser usado? (Eu só vi o laço usado para regressão linear.)

A observação dos coeficientes do modelo ajustado é indicativa da importância dos diferentes recursos?

Editar - Esclarecimentos depois de ver algumas das respostas:

  1. Quando me refiro à magnitude dos coeficientes ajustados, quero dizer aqueles que são ajustados às características normalizadas (média 0 e variância 1). Caso contrário, como apontou @probabilityislogic, 1000x pareceria menos importante que x.

  2. Não estou interessado em simplesmente encontrar o melhor subconjunto k (como o @Davide estava oferecendo), mas pesar a importância de diferentes recursos em relação um ao outro. Por exemplo, um recurso pode ser "idade" e o outro recurso "idade> 30". Sua importância incremental pode ser pequena, mas ambas podem ser importantes.

Guy Adini
fonte

Respostas:

8

A resposta do DWin oferece a resposta, mas há poucas informações, então pensei que poderia ser útil fornecer algumas explicações.

p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

jppxij

Após uma pequena transformação, você pode ver que

p=eβ0+β1Txi1+eβ0+β1Txi

Depois de calcular sua derivada, você verá que

pxij=βjeβ0+β1Txi

Isso depende claramente do valor de todas as outras variáveis. No entanto, você pode observar que o sinal do coeficiente pode ser interpretado da maneira que você deseja: se for negativo, esse recurso diminuirá a probabilidade p.

β

βr^=β^β^+λ

Como você pode ver, isso pode alterar o sinal do seu coeficiente, de modo que até essa interpretação se desfaz.

marcin_j
fonte
1
erro de digitação no denominador da eq1?
Fernando
7

A resposta para sua última pergunta é um NÃO plano. A magnitude dos coeficientes não é de forma alguma uma medida de importância. O laço pode ser usado para regressão logística. Você precisa estudar a área com mais assiduidade. Os métodos que você precisa estudar são aqueles que envolvem métodos "penalizados". Se você estiver procurando métodos de detecção que descubram preditores "sombreados", um termo que pode ser definido em algum lugar, mas que não seja de uso geral, será necessário procurar métodos que inspecionem interações e estrutura não linear no espaço do preditivo e no ligação de resultados a esse espaço. Há muita discussão sobre essas questões e métodos no texto de Frank Harrell "Estratégias de modelagem de regressão".

A estratégia de seleção para trás não fornecerá resultados válidos (embora produza resultados). Se você analisou um caso de 20 preditores aleatórios para 100 eventos, provavelmente encontrará 2 ou 3 que serão selecionados com um processo de seleção para trás. A prevalência da seleção reversa no mundo real reflete um pensamento estatístico não cuidadoso, mas sua fácil disponibilidade no SAS e SPSS e falta de sofisticação da base de usuários desses produtos. A base de usuários do R tem mais dificuldade em acessar esses métodos e usuários que publicam solicitações nas listas de correspondência e, portanto, geralmente são avisados ​​dos problemas envolvidos nos métodos de seleção para trás (ou para a frente).

DWin
fonte
1
Eu sei que devo - eu aprecio muito algumas dicas sobre por onde começar.
Guy Adini 6/13
xn+1=1000x1xn+11000x1
Por favor, veja meus comentários acima (usando recursos normalizados). Obrigado.
precisa saber é o seguinte
Obrigado. Vou analisar isso. Você pode citar alguns algoritmos comuns usados ​​nesta "inspeção de interações e estrutura não linear dentro do espaço do preditor" ou é uma situação muito caso a caso?
Guy Adini
Você pode usar splines de regressão para procurar por não linearidade e os termos do spline podem ser "cruzados", o que permite a identificação de efeitos restritos a uma região de um espaço de previsão 2D. Você também pode usar métodos de regressão local. Em R, o método de regressão local mais usado é provavelmente o pacote 'mgcv', mas o pacote 'locfit' mais antigo ainda está disponível.
Dwin
-4

Como o inglês não é minha língua nativa, talvez eu não tenha entendido qual é o seu problema, mas se você precisar encontrar o melhor modelo, poderá tentar usar um procedimento para trás (e eventualmente adicionar interações), começando com um modelo com todas as covariáveis. Você pode ver os valores residuals_vs_predicted e os gráficos qq-plot para verificar se o modelo está descrevendo bem seu fenômeno

Davide
fonte
Obrigado! Eu acho que o que você está sugerindo é adicionar gradualmente o recurso mais correlacionado. Faz sentido, mas não me ajuda a entender "por quanto" o recurso A é mais importante que o recurso B. Por exemplo, suponha que eu tenha um recurso x e outro recurso x + <pequeno ruído>. Então, ambos são recursos realmente úteis, mas um é sombreado pelo outro. Eu quero um método que também mostre que x + <noise> seja importante.
precisa saber é o seguinte
Não, um procedimento reverso começa com um modelo com todas as covariáveis ​​e depois remove uma covariável (cujo coeficiente não é significativo) passo a passo (até que você tenha um modelo com apenas coeficientes significativos, geralmente). Acho que existem maneiras mais sofisticadas de alcançar o mesmo objetivo, mas sou apenas um estudante de graduação!
Davide