Conexão entre formulações de laço

9

Essa pergunta pode ser idiota, mas notei que existem duas formulações diferentes da regressão de Lasso . Sabemos que o problema de Lasso é minimizar o objetivo que consiste na perda quadrada mais o termo de penalidade -1, expresso da seguinte forma: L

minβyXβ22+λβ1

Porém, muitas vezes, quando vi o estimador Lasso, pode ser escrito como

β^n(λ)=argminβ{12nyXβ22+λβ1}

Minha pergunta é: são equivalentes? De onde vem o termo 12n ? As conexões entre as duas formulações não são óbvias para mim.

[Update] Acho que outra pergunta que devo fazer é:

Por que existe a segunda formulação? Qual é a vantagem, teoricamente ou computacionalmente, de formular o problema dessa maneira?

Aaron Zeng
fonte
2
Se você definir na segunda formulação igual a vezes o na primeira formulação, a função objetivo na segunda formulação será vezes a função objetivo na primeira formulação. Com efeito, você apenas modificou as unidades de medida da perda. Como você acha que isso mudaria os valores ótimos de ? λ1/(2n)λ1/(2n)β
whuber
Obrigado, @Whuber. Isso faz sentido para mim. Então, por que existe a última formulação? Qual é a vantagem, teoricamente ou computacionalmente, de formular o problema dessa maneira?
Aaron Zeng

Respostas:

10

Eles são realmente equivalentes, já que você sempre pode redimensionar (consulte também o comentário do @ whuber). Do ponto de vista teórico, é uma questão de conveniência, mas até onde eu sei, não é necessário. De uma perspectiva computacional, na verdade, eu acho o bastante irritante, então geralmente uso a primeira formulação se estiver projetando um algoritmo que usa regularização.λ1/(2n)

Um pouco da história: quando comecei a aprender sobre métodos penalizados, fiquei aborrecido ao carregar o em todos os lugares do meu trabalho, então preferi ignorá-lo - até simplificou alguns dos meus cálculos. Naquela época, meu trabalho era principalmente computacional. Mais recentemente, tenho realizado um trabalho teórico e achei o indispensável (mesmo vs., digamos, ).1/(2n)1/(2n)1/n

Mais detalhes: Quando você tenta analisar o comportamento do Lasso em função do tamanho da amostra , freqüentemente precisa lidar com somas de variáveis ​​aleatórias iid e, na prática, geralmente é mais conveniente analisar tais somas após a normalização por - - pense na lei do grande número / teorema do limite central (ou se você deseja obter uma fantasia, concentração de medida e teoria empírica do processo). Se você não possui o termo antes da perda, acaba por redimensionar algo no final da análise, por isso é geralmente melhor tê-lo lá para começar. O é conveniente porque cancela alguns fatores irritantes denn1/n1/22 na análise (por exemplo, quando você toma a derivada do termo da perda ao quadrado).

Outra maneira de pensar sobre isso é que, ao fazer a teoria, geralmente estamos interessados ​​no comportamento das soluções à medida que aumenta - ou seja, não é uma quantidade fixa. Na prática, quando executamos o Lasso em algum conjunto de dados fixo, é de fato fixo da perspectiva do algoritmo / computação. Portanto, ter o fator de normalização extra na frente não é tão útil.nnn

Isso pode parecer um assunto irritante de conveniência, mas depois de gastar tempo suficiente manipulando esses tipos de desigualdades, aprendi a amar o .1/(2n)

JohnA
fonte
3
Depois de perceber para que servem essas constantes de normalização, você começa a vê-las em todos os lugares .
Matthew Drury
Obrigado por esta explicação. Estamos muito orgulhosos de ler suas ótimas experiências neste domínio. Obrigado novamente
Christina