Usando o LASSO apenas para seleção de recursos

10

Na minha aula de aprendizado de máquina, aprendemos sobre como a regressão LASSO é muito boa para executar a seleção de recursos, uma vez que faz uso da regularização .l1

Minha pergunta: as pessoas normalmente usam o modelo LASSO apenas para fazer a seleção de recursos (e depois despejam esses recursos em um modelo diferente de aprendizado de máquina), ou eles normalmente usam o LASSO para realizar a seleção de recursos e a regressão real?

Por exemplo, suponha que você queira fazer uma regressão de crista, mas acredita que muitos de seus recursos não são muito bons. Seria sensato executar o LASSO, pegar apenas os recursos que não são quase zerados pelo algoritmo e, em seguida, usar apenas os que colocam seus dados em um modelo de regressão de crista? Dessa forma, você obtém o benefício da regularização para executar a seleção de recursos, mas também o benefício da regularização para reduzir o overfitting. (Eu sei que isso basicamente equivale a Elastic Regressão Net, mas parece que você não precisa ter tanto os e termos na função objetivo final de regressão.)l1l2l1l2

Além da regressão, essa é uma estratégia inteligente ao executar tarefas de classificação (usando SVMs, redes neurais, florestas aleatórias etc.)?

Ryan
fonte
11
Sim, usar o laço para a seleção de recursos para outros modelos é uma boa idéia. Alternativamente seleção de recurso baseado em árvore também pode ser alimentado a outros modelos
karthikbharadwaj
11
O laço executa apenas a seleção de recursos em modelos lineares - não testa interações de ordem superior ou não linearidade nos preditores. Para um exemplo de como isso pode ser importante: stats.stackexchange.com/questions/164048/… Sua milhagem pode variar.
Sycorax diz Restabelecer Monica

Respostas:

11

Quase qualquer abordagem que faça alguma forma de seleção de modelo e depois faça análises adicionais, como se nenhuma seleção de modelo tivesse ocorrido anteriormente, normalmente tem propriedades inadequadas. A menos que haja argumentos teóricos convincentes respaldados por evidências de, por exemplo, extensos estudos de simulação para tamanhos de amostra realistas e taxas de recurso versus tamanho de amostra para mostrar que isso é uma exceção, é provável que essa abordagem tenha propriedades insatisfatórias. Não conheço nenhuma evidência positiva dessa abordagem, mas talvez outra pessoa esteja. Dado que existem alternativas razoáveis ​​que atingem todos os objetivos desejados (por exemplo, a rede elástica), é difícil justificar essa abordagem usando uma abordagem ad-hoc suspeita.

Björn
fonte
3
concordou .... o ponto é que tudo deve caber em uma estrutura de validação cruzada ... portanto, você deve fazer uma validação cruzada aninhada para fazer as duas regularizações separadas (caso contrário, você terá problemas), e a validação cruzada aninhada está usando menos dados para cada parte.
Seanv507
1

Além de todas as respostas acima: É possível calcular um teste exato de permutação de chi2 para tabelas 2x2 e rxc. Em vez de comparar nosso valor observado da estatística qui-quadrado com uma distribuição qui-quadrado assintótica, precisamos compará-lo à distribuição exata de permutação. Precisamos permutar nossos dados de todas as maneiras possíveis, mantendo as margens da linha e da coluna constantes. Para cada conjunto de dados permutados, calculamos as estatísticas do chi2. Em seguida, comparamos nossa chi2 observada com as estatísticas chi2 (classificadas) O ranking da estatística real do teste entre as estatísticas permutadas do teste chi2 fornece um valor-p.

Stats_Monkey
fonte
Você poderia adicionar detalhes à sua resposta, por favor? Em sua forma atual, não está claro como se poderia calcular o teste exato de chi2.
Antoine Vernet