Sei que isso prejudicaria a inferência estatística, mas estou realmente preocupado apenas em chegar o mais próximo possível de um modelo preciso.
Eu tenho uma variável de resultado dicotômica, com um grande conjunto de preditores dicotômicos. Penso que gostaria de tentar usar o LASSO para selecionar quais variáveis devo incluir no meu modelo e inserir essas variáveis selecionadas em uma regressão do Logit.
Existe algo que eu estou ignorando quando se trata da praticidade dessa abordagem?
model-selection
lasso
logit
EvKohl
fonte
fonte
Respostas:
Existe um pacote no R chamado glmnet que pode ser adequado a um modelo logístico LASSO para você! Isso será mais direto do que a abordagem que você está considerando. Mais precisamente, glmnet é um híbrido entre LASSO e regressão de Ridge, mas você pode definir um parâmetro para fazer um modelo LASSO puro. Como você está interessado em regressão logística, você definirá family = "binomial".α=1
Você pode ler mais aqui: http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html#intro
fonte
stata lasso logistic
me fornece homepages.ucl.ac.uk/~ucakgam/stata.html como o primeiro resultado.Primeiro, não há garantia de que um modelo de probabilidade linear se aproxime muito bem de um modelo de logit; consequentemente, o subconjunto de variáveis selecionadas para uma pode ser menos apropriado para a outra.
Segundo, o reajuste não aplica retração, apesar da seleção de variáveis que ocorreu na primeira etapa; arriscando uma séria calibração e talvez uma pequena perda de discriminação.
Você pode validar o procedimento em um conjunto de dados específico, mas não parece seguro em geral, ou oferecer qualquer vantagem sobre uma regressão logística gradual. E é claro que é desnecessário; A penalidade por LASSO pode ser usada para retração e seleção na regressão logística.L1
fonte