Essa pergunta pode ser idiota, mas notei que existem duas formulações diferentes da regressão de Lasso . Sabemos que o problema de Lasso é minimizar o objetivo que consiste na perda quadrada mais o termo de penalidade -1, expresso da seguinte forma:
Porém, muitas vezes, quando vi o estimador Lasso, pode ser escrito como
Minha pergunta é: são equivalentes? De onde vem o termo ? As conexões entre as duas formulações não são óbvias para mim.
[Update] Acho que outra pergunta que devo fazer é:
Por que existe a segunda formulação? Qual é a vantagem, teoricamente ou computacionalmente, de formular o problema dessa maneira?
Respostas:
Eles são realmente equivalentes, já que você sempre pode redimensionar (consulte também o comentário do @ whuber). Do ponto de vista teórico, é uma questão de conveniência, mas até onde eu sei, não é necessário. De uma perspectiva computacional, na verdade, eu acho o bastante irritante, então geralmente uso a primeira formulação se estiver projetando um algoritmo que usa regularização.λ 1/(2n)
Um pouco da história: quando comecei a aprender sobre métodos penalizados, fiquei aborrecido ao carregar o em todos os lugares do meu trabalho, então preferi ignorá-lo - até simplificou alguns dos meus cálculos. Naquela época, meu trabalho era principalmente computacional. Mais recentemente, tenho realizado um trabalho teórico e achei o indispensável (mesmo vs., digamos, ).1/(2n) 1/(2n) 1/n
Mais detalhes: Quando você tenta analisar o comportamento do Lasso em função do tamanho da amostra , freqüentemente precisa lidar com somas de variáveis aleatórias iid e, na prática, geralmente é mais conveniente analisar tais somas após a normalização por - - pense na lei do grande número / teorema do limite central (ou se você deseja obter uma fantasia, concentração de medida e teoria empírica do processo). Se você não possui o termo antes da perda, acaba por redimensionar algo no final da análise, por isso é geralmente melhor tê-lo lá para começar. O é conveniente porque cancela alguns fatores irritantes den n 1/n 1/2 2 na análise (por exemplo, quando você toma a derivada do termo da perda ao quadrado).
Outra maneira de pensar sobre isso é que, ao fazer a teoria, geralmente estamos interessados no comportamento das soluções à medida que aumenta - ou seja, não é uma quantidade fixa. Na prática, quando executamos o Lasso em algum conjunto de dados fixo, é de fato fixo da perspectiva do algoritmo / computação. Portanto, ter o fator de normalização extra na frente não é tão útil.n n n
Isso pode parecer um assunto irritante de conveniência, mas depois de gastar tempo suficiente manipulando esses tipos de desigualdades, aprendi a amar o .1/(2n)
fonte