A regularização líquida elástica é sempre preferida à Lasso & Ridge, pois parece resolver as desvantagens desses métodos? Qual é a intuição e qual é a matemática por trás da rede elástica?
regression
lasso
regularization
ridge-regression
elastic-net
GeorgeOfTheRF
fonte
fonte
Respostas:
1. Qual método é o preferido?
Sim, a rede elástica é sempre preferida à regressão de laço e cordilheira, porque resolve as limitações de ambos os métodos, incluindo também cada um como casos especiais. Portanto, se a solução de cume ou laço é realmente a melhor, qualquer boa rotina de seleção de modelo identificará isso como parte do processo de modelagem.
Comentários ao meu post apontaram que as vantagens da rede elástica não são desqualificadas. Eu persisto em minha crença de que a generalidade da regressão rede elástica ainda é preferível oueu1 1 ou eu2 regularização por conta própria. Especificamente, acho que os pontos de discórdia entre mim e os outros estão diretamente ligados às suposições que estamos dispostos a fazer sobre o processo de modelagem. Na presença de um forte conhecimento sobre os dados subjacentes, alguns métodos serão preferidos a outros. No entanto, minha preferência por rede elástica está enraizada no meu ceticismo de que se saiba com confiança que eu1 1 ou eu2 é o verdadeiro modelo.
Isso é um pouco circular. Perdoe-me se isso é um pouco superficial, mas se você souber que o LASSO (cume) é a melhor solução, não se perguntará como modelá-lo adequadamente; você apenas ajustará um modelo LASSO (cume). Se você está absolutamente certo de que a resposta correta é a regressão LASSO (cume), está claramente convencido de que não haveria razão para perder tempo ajustando uma rede elástica. Mas se você estiver um pouco menos certo se o LASSO (cume) é a maneira correta de proceder, acredito que faça sentido estimar um modelo mais flexível e avaliar a força com que os dados suportam a crença anterior.
Isso também é verdade, mas acho que é circular por um motivo semelhante: se você estimou uma solução ideal e descobriu queα ∉ { 0 , 1 } , esse é o modelo que os dados suportam. Por um lado, sim, seu modelo estimado não é o modelo verdadeiro, mas devo me perguntar como alguém saberia que o modelo verdadeiro é α = 1 (ou α = 0 ) antes de qualquer estimativa de modelo. Pode haver domínios em que você tenha esse tipo de conhecimento prévio, mas meu trabalho profissional não é um deles.
Isso é relevante apenas se você tiver limitações de tempo / computador apertadas; caso contrário, é apenas um incômodo. GLMNET é o algoritmo padrão-ouro para estimar soluções de rede elástica. O usuário fornece algum valor de alfa e usa as propriedades de caminho da solução de regularização para estimar rapidamente uma família de modelos para uma variedade de valores da magnitude de penalizaçãoλ , e muitas vezes pode estimar essa família de soluções mais rapidamente do que estimar apenas uma solução para um valor específico λ . Portanto, sim, o uso do GLMNET consigna você ao domínio do uso de métodos no estilo de grade (itere sobre alguns valores de α e deixe o GLMNET tentar uma variedade de λ s), mas é bem rápido.
Isso é verdade, mas na etapa em que se está pensando em qual método usar, não se sabe qual rede elástica, cume ou LASSO é o melhor. Se alguém considerar que a melhor solução deve ser LASSO ou regressão de crista, estamos no domínio da reivindicação (1). Se ainda não sabemos o que é melhor, podemos testar as soluções LASSO, cumeeira e rede elástica e escolher um modelo final nesse ponto (ou, se você é um acadêmico, basta escrever seu artigo sobre os três ) Essa situação de incerteza anterior nos colocará no domínio da reivindicação (2), onde o modelo verdadeiro é LASSO / cume, mas ainda não o conhecíamos com antecedência, e acidentalmente selecionamos o modelo errado devido a hiperparâmetros mal identificados ou rede elástica é realmente a melhor solução.
A validação adequada do modelo é parte integrante de qualquer empresa de aprendizado de máquina. A validação de modelo também costuma ser uma etapa cara, portanto, procuraria-se minimizar ineficiências aqui - se uma dessas ineficiências estiver tentando desnecessariamente valoresα que são conhecidos por serem fúteis, uma sugestão pode ser fazê-lo. Sim, faça isso de qualquer maneira, se você se sentir confortável com a forte declaração que está fazendo sobre como seus dados são organizados - mas estamos de volta ao território da reivindicação (1) e reivindicação (2).
2. Qual é a intuição e a matemática por trás da rede elástica?
Eu sugiro fortemente a leitura da literatura sobre esses métodos, começando com o artigo original na rede elástica. O artigo desenvolve a intuição e a matemática e é altamente legível. A reprodução aqui seria apenas em detrimento da explicação dos autores. Mas o resumo de alto nível é que a rede elástica é uma soma convexa do cume e penalidades lasso, então a função objetivo por Gauss olhares modelo de erro comoErro residual quadrado médio + α ⋅ Penalidade de cume + ( 1 - α ) ⋅ Penalidade de LASSO
paract ∈ [ 0 , 1 ] .
Hui Zou e Trevor Hastie. " Regularização e seleção de variáveis via rede elástica ." JR Statistic. Soc., Vol 67 (2005), parte 2., pp. 301-320.
Richard Hardy ressalta que isso é desenvolvido com mais detalhes em Hastie et al. "Os elementos da aprendizagem estatística", capítulos 3 e 18.
3. E se você adicionar normaseuq adicionais ?
Esta é uma pergunta que me é apresentada nos comentários:
Compreendo que o espírito da pergunta é "Se é como você afirma e duas sanções são boas, por que não adicionar outra?" Mas acho que a resposta está no motivo de regularizarmos em primeiro lugar.
Deixando de lado um desses problemas, o modelo regularizado ainda pode superar o modelo de ML, porque as propriedades de retração dos estimadores são "pessimistas" e puxam os coeficientes para 0.
fonte
Geralmente concordo com a resposta do @Sycorax, mas gostaria de adicionar alguma qualificação.
Dizer que "a rede elástica é sempre preferível à regressão do laço e da crista" pode ser um pouco forte demais. Em amostras pequenas ou médias, a rede elástica pode não selecionar a solução LASSO pura ou a crista pura, mesmo que a primeira ou a última seja realmente a relevante. Dado um forte conhecimento prévio, poderia fazer sentido escolher LASSO ou cume no lugar da rede elástica. No entanto, na ausência de conhecimento prévio, a rede elástica deve ser a solução preferida.
Além disso, a rede elástica é computacionalmente mais cara que o LASSO ou o cume, pois o peso relativo do LASSO versus o cume deve ser selecionado usando a validação cruzada. Se uma grade razoável de valores alfa for [0,1] com um tamanho de passo de 0,1, isso significaria que a rede elástica é aproximadamente 11 vezes mais cara do que o LASSO ou a crista. (Como o LASSO e o cume não têm a mesma complexidade computacional, o resultado é apenas um palpite).
fonte