Uma pergunta para iniciantes aqui. Atualmente, estou realizando uma regressão não paramétrica usando o pacote np em R. Eu tenho 7 recursos e, usando uma abordagem de força bruta, identifiquei os melhores 3. Mas, em breve, terei muitos mais do que 7 recursos!
Minha pergunta é quais são os melhores métodos atuais para seleção de recursos para regressão não paramétrica. E quais pacotes, se houver, implementam os métodos. Obrigado.
Respostas:
A menos que a identificação das variáveis mais relevantes seja um objetivo principal da análise, geralmente é melhor não fazer nenhuma seleção de recurso e usar a regularização para evitar ajustes excessivos. A seleção de recursos é um procedimento complicado e é muito fácil ajustar demais o critério de seleção de recursos, pois existem muitos graus de liberdade. O LASSO e a rede elástica são um bom compromisso, alcançam a escassez por meio da regularização, e não por meio da seleção direta de recursos, portanto, eles são menos propensos a essa forma específica de ajuste excessivo.
fonte
Lasso é realmente uma boa. Coisas simples como começar com nenhuma e adicioná-las uma a uma classificadas em 'utilidade' (via validação cruzada) também funcionam muito bem na prática. Às vezes, isso é chamado seleção de feedforward estático.
Observe que o problema de seleção de subconjuntos é bastante independente do tipo de classificação / regressão. Os métodos não paramétricos podem ser lentos e, portanto, requerem métodos de seleção mais inteligentes.
O livro 'Os elementos do aprendizado estatístico' de T. Hastie fornece uma boa visão geral.
fonte