Por que laço para seleção de recursos?

9

Suponha que eu tenha um conjunto de dados de alta dimensão e queira executar a seleção de recursos. Uma maneira é treinar um modelo capaz de identificar os recursos mais importantes desse conjunto de dados e usá-lo para jogar fora os menos importantes.

Na prática, eu usaria de sklearn SelectFromModel transformador para isso. De acordo com a documentação, qualquer estimador com um feature_importances_ou um coef_atributo faria.

Além do Lasso , muitos outros modelos lineares possuem esse atributo ( LinearRegression , Ridge e ElasticNet, para citar alguns) e podem ser usados ​​para identificar os recursos mais importantes .

O que torna o Lasso o modelo mais popular para identificar os recursos mais importantes em um conjunto de dados?

JkBk
fonte

Respostas:

9

Primeiro, tenha cuidado ao especificar o que você quer dizer com "os recursos mais importantes " em um conjunto de dados. Veja esta página para diferentes perspectivas sobre esse assunto. Por exemplo, os recursos que são considerados "sem importância" individualmente podem ser necessários para ajudar a melhorar as previsões com base em outros recursos, portanto, talvez você não queira jogá-los fora.

O que o LASSO faz bem é fornecer uma maneira baseada em princípios para reduzir o número de recursos em um modelo. Em contraste, a seleção de recurso automatizado baseado em regressão linear padrão pela seleção passo a passo ou escolhendo recursos com os mais baixos p -Valores tem muitos inconvenientes . As vantagens do LASSO sobre outras abordagens baseadas em regressão são especificamente descritas aqui . O LASSO envolve um fator de penalidade que determina quantos recursos são mantidos; o uso da validação cruzada para escolher o fator de penalidade ajuda a garantir que o modelo generalize bem para futuras amostras de dados.

A regressão de Ridge não tenta selecionar recursos, mas usa uma penalidade aplicada à soma dos quadrados de todos os coeficientes de regressão. Novamente, a escolha da penalidade pela validação cruzada ajuda a garantir a generalização. A rede elástica pode ser considerada um híbrido do LASSO com cumeeira. Veja esta página para detalhes sobre as diferenças entre esses métodos penalizados. Se o seu principal interesse estiver na previsão e não for muito caro reunir informações sobre todos os recursos, talvez você não precise fazer a seleção de todos os recursos e, em vez disso, use a regressão de crista para manter informações sobre todos os preditores no modelo.

Se você precisar reduzir o número de preditores por razões práticas, o LASSO é uma boa escolha. Mas tudo o que faz é fornecer um conjunto útil de preditores selecionados, não necessariamente os mais importantes em algum sentido geral. Quando os recursos são correlacionados, o LASSO escolhe um ou outro com base em seu desempenho na amostra de dados específica em questão. Com uma amostra diferente, poderia muito bem escolher um recurso diferente de um conjunto de recursos correlatos. Isso normalmente não afeta o desempenho preditivo do modelo LASSO, mas faz uma pausa sobre o que se entende por "os recursos mais importantes ". Consulte esta página para discussão sobre essa instabilidade na modelagem do LASSO.

EdM
fonte