Estou construindo uma regressão logística em R usando o método LASSO com as funções cv.glmnet
para selecionar o modelo final lambda
e glmnet
o.
Já conheço todas as desvantagens em relação à seleção automática de modelo, mas preciso fazê-lo de qualquer maneira.
Meu problema é que preciso incluir variáveis fatoriais (categóricas) no modelo. Existe alguma maneira de fazer isso sem criar muitas variáveis fictícias? Essas variáveis são quase todas as strings e não números.
Respostas:
O glmnet não pode levar o fator diretamente, você precisa transformar variáveis de fator em manequins. É apenas uma etapa simples usando model.matrix, por exemplo:
alpha = 1 criará um LASSO.
fonte