Provavelmente, estou lidando com um problema que provavelmente já foi resolvido centenas de vezes antes, mas não tenho certeza de onde encontrar a resposta.
Ao meio de regressão logística, dadas muitas características tentando prever um valor categórico binário y , estou interessado em selecionar um subconjunto dos recursos que prevêem y bem.
Existe um procedimento semelhante ao laço que pode ser usado? (Eu só vi o laço usado para regressão linear.)
A observação dos coeficientes do modelo ajustado é indicativa da importância dos diferentes recursos?
Editar - Esclarecimentos depois de ver algumas das respostas:
Quando me refiro à magnitude dos coeficientes ajustados, quero dizer aqueles que são ajustados às características normalizadas (média 0 e variância 1). Caso contrário, como apontou @probabilityislogic, 1000x pareceria menos importante que x.
Não estou interessado em simplesmente encontrar o melhor subconjunto k (como o @Davide estava oferecendo), mas pesar a importância de diferentes recursos em relação um ao outro. Por exemplo, um recurso pode ser "idade" e o outro recurso "idade> 30". Sua importância incremental pode ser pequena, mas ambas podem ser importantes.
fonte
A resposta para sua última pergunta é um NÃO plano. A magnitude dos coeficientes não é de forma alguma uma medida de importância. O laço pode ser usado para regressão logística. Você precisa estudar a área com mais assiduidade. Os métodos que você precisa estudar são aqueles que envolvem métodos "penalizados". Se você estiver procurando métodos de detecção que descubram preditores "sombreados", um termo que pode ser definido em algum lugar, mas que não seja de uso geral, será necessário procurar métodos que inspecionem interações e estrutura não linear no espaço do preditivo e no ligação de resultados a esse espaço. Há muita discussão sobre essas questões e métodos no texto de Frank Harrell "Estratégias de modelagem de regressão".
A estratégia de seleção para trás não fornecerá resultados válidos (embora produza resultados). Se você analisou um caso de 20 preditores aleatórios para 100 eventos, provavelmente encontrará 2 ou 3 que serão selecionados com um processo de seleção para trás. A prevalência da seleção reversa no mundo real reflete um pensamento estatístico não cuidadoso, mas sua fácil disponibilidade no SAS e SPSS e falta de sofisticação da base de usuários desses produtos. A base de usuários do R tem mais dificuldade em acessar esses métodos e usuários que publicam solicitações nas listas de correspondência e, portanto, geralmente são avisados dos problemas envolvidos nos métodos de seleção para trás (ou para a frente).
fonte
Como o inglês não é minha língua nativa, talvez eu não tenha entendido qual é o seu problema, mas se você precisar encontrar o melhor modelo, poderá tentar usar um procedimento para trás (e eventualmente adicionar interações), começando com um modelo com todas as covariáveis. Você pode ver os valores residuals_vs_predicted e os gráficos qq-plot para verificar se o modelo está descrevendo bem seu fenômeno
fonte