Esta publicação segue esta: Por que a estimativa da crista se torna melhor que a OLS adicionando uma constante à diagonal?
Aqui está a minha pergunta:
Até onde eu sei, a regularização de cume usa uma -norm (distância euclidiana). Mas por que usamos o quadrado dessa norma? (uma aplicação direta de resultaria na raiz quadrada da soma do beta ao quadrado).ℓ 2
Como comparação, não fazemos isso para o LASSO, que usa um -norm para regularizar. Mas aqui está a norma "real" (apenas a soma do quadrado dos valores absolutos beta, e não o quadrado dessa soma).ℓ 1
Alguém pode me ajudar a esclarecer?
Respostas:
Ridge e laço são duas maneiras de regularizar e uma regressão. A regressão do laço impõe uma restrição à soma dos coeficientes absolutos:
A regressão de Ridge impõe uma restrição da soma das diferenças ao quadrado:
Você sugeriu introduzir ainda outra norma, o comprimento euclidiano dos coeficientes:
A diferença entre a regressão de Ridge e o comprimento euclidiano é a quadratura. Isso muda a interpretação da regularização. Enquanto a crista e o comprimento euclidiano se regularizam para zero, a regressão da crista também difere a quantidade de regularização. Coeficientes que estão mais longe de zero puxam mais forte para zero. Isso o torna mais estável em torno de zero, porque a regularização muda gradualmente em torno de zero. Este não é o caso do comprimento euclidiano ou, de fato, da regressão do laço.
fonte
Atualmente, existem muitas abordagens penalizadas que têm todos os tipos de funções diferentes de penalidade (cume, laço, MCP, SCAD). A questão de por que uma de uma forma específica é basicamente "que vantagens / desvantagens essa penalidade proporciona?".
Propriedades de interesse podem ser:
1) estimadores quase imparciais (observe que todos os estimadores penalizados serão tendenciosos)
2) Escassez (a regressão da cumeeira não produz resultados esparsos, isto é, não reduz os coeficientes até zero)
3) Continuidade (para evitar instabilidade na previsão do modelo)
Estas são apenas algumas propriedades que podem estar interessadas em uma função de penalidade.
É muito mais fácil trabalhar com uma soma em derivações e trabalho teórico: por exemplo e | | beta | | 1 = ∑ | β i | . Imagine se tivéssemos √| | β| |22= Σ | βEu|2 | | β| |1= Σ | βEu| ou(∑|βi|)2. Tomar derivativos (que é necessário para mostrar resultados teóricos como consistência, normalidade assintótica etc.) seria uma dor com penalidades como essa.( ∑ | βEu|2)--------√ ( ∑ | βEu| )2
fonte
Na verdade, tanto o quadrado da -norm eo ℓ 1 -norm vêm de uma mesma classe de regularização: ‖ β ‖ p p quando p > 0 .ℓ2 ℓ1 ∥ β ∥pp p > 0
fonte
a partir do qual todo tipo de inferência pode ser derivado.
fonte
fonte