8

Alguém pode fornecer uma visão intuitiva sobre por que é melhor ter beta menor?

Para o LASSO, eu posso entender isso, há um componente de seleção de recurso aqui. Menos recursos tornam o modelo mais simples e, portanto, menos provável de ter um ajuste excessivo.

No entanto, para cume, todos os recursos (fatores) são mantidos. Somente os valores são menores (no sentido de norma L2). Como isso torna o modelo mais simples?

Alguém pode fornecer uma visão intuitiva sobre isso?

regression lasso ridge-regression shrinkage user152503
fonte

menor não é necessariamente melhor: encolher para qualquer espaço reduz o risco, especialmente na vizinhança desse espaço. Esses estimadores que você menciona acabam tomando esse espaço como origem.

user795305

9

TL; DR - O mesmo princípio se aplica a LASSO e Ridge

Menos recursos tornam o modelo mais simples e, portanto, menos provável de ser excessivo

Essa é a mesma intuição com a regressão de crista - impedimos que o modelo ajuste demais os dados, mas, em vez de direcionar pequenas variáveis potencialmente espúrias (que são reduzidas a zero no LASSO), direcionamos os maiores coeficientes que podem estar exagerando o caso para suas respectivas variáveis.

A penalidade de L2 geralmente impede que o modelo coloque importância "demais" em qualquer variável, porque coeficientes grandes são penalizados mais que os pequenos.

Pode não parecer que "simplifique" o modelo, mas executa uma tarefa semelhante de impedir que o modelo se ajuste demais aos dados disponíveis.

Um exemplo para criar intuição

Tomemos um exemplo concreto - você pode estar tentando prever readmissões hospitalares com base nas características do paciente.

Nesse caso, você pode ter uma variável relativamente rara (como uma doença incomum) que esteja altamente correlacionada no seu conjunto de treinamento com a readmissão. Em um conjunto de dados de 10.000 pacientes, você pode ver a doença apenas 10 vezes, com 9 readmissões (um exemplo extremo para ter certeza)

Como resultado, o coeficiente pode ser massivo em relação ao coeficiente de outras variáveis. Ao minimizar a penalidade de MSE e L2, esse seria um bom candidato para que a regressão da crista diminuísse em direção a um valor menor, uma vez que é raro (não afeta tanto o MSE) e um valor extremo do coeficiente.

Michael Oberst
fonte

4

Não há garantia de que ter pesos menores seja realmente melhor. A regressão do laço e da cordilheira funciona impondo conhecimentos / suposições / restrições prévias na solução. Essa abordagem funcionará bem se as anteriores / premissas / restrições forem adequadas à distribuição real que gerou os dados e, caso contrário, poderão não funcionar bem. Em relação à simplicidade / complexidade, não são os modelos individuais que são mais simples ou mais complexos. Pelo contrário, é a família de modelos em consideração.

Do ponto de vista geométrico, a regressão do laço e da crista impõe restrições aos pesos. Por exemplo, a penalidade comum / forma lagrangiana de regressão de crista:

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{2}^{2}

$\min_\beta \|y - X\beta\|_2^2 + \lambda \|\beta\|_2^2$

pode ser reescrito na forma de restrição equivalente:

min_{β} ‖ y - X β ‖_{2}^{2} s.t. ‖ β ‖_{2}^{2} \leq c

$\min_\beta \|y - X\beta\|_2^2 \quad \text{s.t. } \|\beta\|_2^2 \le c$

Isso deixa claro que a regressão da crista restringe os pesos a ficarem dentro de uma hiperesfera cujo raio é governado pelo parâmetro de regularização. Da mesma forma, o laço restringe os pesos a ficarem dentro de um polítopo cujo tamanho é governado pelo parâmetro de regularização. Essas restrições significam que a maior parte do espaço original dos parâmetros está fora dos limites e procuramos os pesos ideais em um subespaço muito menor. Esse subespaço menor pode ser considerado menos 'complexo' que o espaço total.

De uma perspectiva bayesiana, pode-se pensar na distribuição posterior sobre todas as opções possíveis de pesos. A regressão do laço e da cordilheira é equivalente à estimativa do MAP após a colocação de um prior nos pesos (o laço usa um anterior laplaciano e a regressão do cordão usa um anterior gaussiano). Um posterior mais estreito corresponde a uma maior restrição e menor complexidade, pois alta densidade posterior é atribuída a um conjunto menor de parâmetros. Por exemplo, multiplicar a função de probabilidade por um prior gaussiano estreito (que corresponde a uma grande penalidade de cordilheira) produz um posterior mais estreito.

Uma das principais razões para impor restrições / prévios é que a escolha do modelo ideal de uma família mais restrita tem menos probabilidade de superajustar do que a escolha de uma família menos restrita. Isso ocorre porque a família menos restrita oferece 'mais' maneiras de ajustar os dados, e é cada vez mais provável que um deles seja capaz de ajustar flutuações aleatórias no conjunto de treinamento. Para um tratamento mais formal, consulte a troca de viés e variância . Isso não significa necessariamente que a escolha de um modelo de uma família mais restrita funcione bem. Obter um bom desempenho exige que a família restrita realmente contenha bons modelos. Isso significa que precisamos escolher uma restrição prévia / que seja adequada ao problema específico em questão.

user20160
fonte

(+1) A ideia-chave em responder às perguntas dos OPs parece ser a desvantagem da variação de viés

user795305

1

Embora a pergunta tenha solicitado uma explicação intuitiva, na verdade existe uma derivação rigorosa do Mean Square Error (MSE) para a regressão de crista que mostra que existem valores de atingindo um MSE melhor que a regressão linear. $\lambda$

Lembre-se: Chame o estimador de para uma regressão de crista cujo parâmetro de encolhimento é e defina: . $MSE(\hat{\beta})=\mathbb{E}[(\hat{\beta}-\beta)(\hat{\beta}-\beta)^T]$ $\hat{\beta_\lambda}$ $\beta$ $\lambda$ $M(\lambda)=MSE(\hat{\beta_\lambda})$

Portanto é o MSE de uma regressão linear. $M(0)$

Seguindo estas notas do curso, pode-se mostrar que:

M (0) - M (λ) = λ (X^{T} X + λ I)^{- 1} (2 σ ² I + λ σ ² (X^{T} X)^{- 1} - λ β β^{T}) {(X^{T} X + λ I)^{- 1}}^{T}

$M(0)-M(\lambda)=\lambda(X^TX+\lambda I)^{-1}(2\sigma²I+\lambda\sigma²(X^TX)^{-1}-\lambda\beta\beta^T) \{(X^TX+\lambda I)^{-1}\}^T$

Os termos são definidos positivamente, mas, para , o termo no meio é positivo também. Para esses valores, temos , mostrando que a regressão da crista reduz o erro médio quadrático. $(X^TX+\lambda I)^{-1}$ $\lambda<2\sigma^2(\beta^T\beta)^{-1}$ $M(0)>M(\lambda)$

RUser4512
fonte

Embora a álgebra seja boa, você não precisa fazer isso. Como o OLS impõe a restrição de imparcialidade e a Regressão de Ridge remove isso, ele nunca pode resultar em um MSE maior que o OLS e atingirá o mesmo MSE somente quando sua solução e a solução OLS forem idênticas: caso contrário, ele deve ter um MSE menor.

whuber

@ Whuber Eu não entendo o argumento no seu comentário. Não é possível chegar facilmente a um estimador estúpido de tendencioso e com MSE maior que o estimador OLS?

β

$\beta$

Ameba

@Amoeba Sim, acho que há uma sutileza: estou implicitamente assumindo que a perda de regressão de Ridge para infinitesimal é transversal à perda de OLS. Isso implica que para arbitrariamente pequeno deve haver soluções RR com MSE menor, a menos que o OLS já atinja o menor MSE imparcial .

λ

$\lambda$

λ

$\lambda$

whuber

@whuber De fato, é óbvio que, relaxando a restrição, só se pode reduzir o MSE. Esse teorema garante que realmente alcancemos essa redução.

RUser4512

Na regressão de Ridge e no LASSO, por que menor seria melhor?

Respostas:

TL; DR - O mesmo princípio se aplica a LASSO e Ridge

Um exemplo para criar intuição