Interpretação geométrica da regressão linear penalizada

26

Eu sei que a regressão linear pode ser pensada como "a linha que está verticalmente mais próxima de todos os pontos" :

insira a descrição da imagem aqui

Mas há outra maneira de vê-lo, visualizando o espaço da coluna, como "a projeção no espaço estendido pelas colunas da matriz do coeficiente" :

insira a descrição da imagem aqui

Minha pergunta é: nessas duas interpretações, o que acontece quando usamos a regressão linear penalizada, como regressão de cume e LASSO ? O que acontece com a linha na primeira interpretação? E o que acontece com a projeção na segunda interpretação?

ATUALIZAÇÃO: @JohnSmith nos comentários trouxe à tona o fato de que a penalidade ocorre no espaço dos coeficientes. Existe uma interpretação neste espaço também?

Lucas Reis
fonte
11
Não tenho certeza de que seja possível chegar a essa interpretação. Simplesmente porque o que você forneceu são imagens no espaço original de recursos e respostas. E a regressão penalizada envolve o espaço dos coeficientes, que é muito diferente.
Dmitry Laptev
"a linha verticalmente mais próxima de todos os pontos"? Geralmente, toma-se a soma dos quadrados - veja a bela imagem no Coeficiente_de_determinação da Wikipedia . A soma das distâncias verticais é a norma L1, que é menos sensível aos valores extremos, mas muito menos comum.
Denis

Respostas:

21

Desculpe pelas minhas habilidades de pintura, tentarei lhe dar a seguinte intuição.

f(β)ββ1β2

Existe um mínimo dessa função, no meio dos círculos vermelhos. E esse mínimo nos dá a solução não penalizada.

g(β)g(β)=λ(|β1|+|β2|)g(β)=λ(β12+β22)λλg(x)

f(β)+g(β)

Regressão LASSO e Ridge

Quanto maior a penalidade, maiores os contornos azuis "mais estreitos" que obtemos e, em seguida, os gráficos se encontram em um ponto mais próximo de zero. Um vice-versa: quanto menor a penalidade, os contornos se expandem e a interseção dos gráficos em azul e vermelho se aproxima do centro do círculo vermelho (solução não penalizada).

β1=0β2=0

0

Espero que explique alguma intuição sobre como a regressão penalizada funciona no espaço de parâmetros.

Dmitry Laptev
fonte
Eu acho que começar com uma imagem clássica, como você fez, é um bom começo. Para realmente entender isso, acho que seria útil descrever como os contornos se relacionam com o problema. Em particular, sabemos em ambos os casos, que quanto menor a penalidade, mais nos aproximamos da solução OLS e, quanto maior ela se aproxima, mais próximo de um modelo de interceptação pura. Uma pergunta a fazer é: como isso se manifesta na sua figura?
cardeal
A propósito, suas habilidades de pintura parecem boas.
cardeal
Obrigado por seu comentário! Tudo é intuitivamente simples aqui: a penalidade maior, os contornos azuis "mais estreitos" que obtemos (e o ponto em que duas parcelas se encontram se aproximam de zero). Um vice-versa: quanto menor a penalidade: mais próximo do centro do círculo vermelho as parcelas se encontrarão (OLS).
Dmitry Laptev
2
g(x)λ
11
Obrigado pela ilustração clara. Li em outro lugar que a soma mínima dos objetivos ocorre onde eles são tangentes um ao outro. Entendo que, se f (\ beta) '= -g (\ beta)', isso significaria que a derivada da soma é zero, o que é um requisito para um extremo. É isso o que se entende aqui por "quando dois gráficos de contorno se encontram"?
Odedbd 30/07/2015
3

A intuição que tenho é a seguinte: No caso dos mínimos quadrados, a matriz do chapéu é uma projeção ortogonal, portanto, idempotente. No caso penalizado, a matriz do chapéu não é mais idempotente. Na verdade, aplicá-lo infinitamente várias vezes, reduzirá os coeficientes à origem. Por outro lado, os coeficientes ainda precisam estar no intervalo dos preditores, portanto ainda é uma projeção, embora não ortogonal. A magnitude do fator penalizador e o tipo de norma controlam a distância e a direção do encolhimento em direção à origem.

JohnRos
fonte
11
Não vejo por que não é idempotente: se eu projetar o vetor no espaço (mesmo que não seja uma projeção ortogonal) e colocar uma restrição nos coeficientes, por que uma nova projeção desse vetor projetado seria diferente da anterior 1?
Lucas Reis
11
Intuitivamente: digamos que você esteja minimizando a soma penalizada dos quadrados pela segunda vez. A soma dos quadrados na segunda minimização é menor que a soma dos quadrados da primeira minimização. A importância relativa da norma dos coeficientes penalizados aumentará, ou seja, há mais a ganhar ao diminuir ainda mais os coeficientes. A regressão de cume é um bom exemplo no qual você possui um bom formulário fechado para a matriz de chapéus e pode verificar diretamente se é idempotente.
19412 JohnRos