Alguém pode fornecer uma visão intuitiva sobre por que é melhor ter beta menor?
Para o LASSO, eu posso entender isso, há um componente de seleção de recurso aqui. Menos recursos tornam o modelo mais simples e, portanto, menos provável de ter um ajuste excessivo.
No entanto, para cume, todos os recursos (fatores) são mantidos. Somente os valores são menores (no sentido de norma L2). Como isso torna o modelo mais simples?
Alguém pode fornecer uma visão intuitiva sobre isso?
regression
lasso
ridge-regression
shrinkage
user152503
fonte
fonte
Respostas:
TL; DR - O mesmo princípio se aplica a LASSO e Ridge
Essa é a mesma intuição com a regressão de crista - impedimos que o modelo ajuste demais os dados, mas, em vez de direcionar pequenas variáveis potencialmente espúrias (que são reduzidas a zero no LASSO), direcionamos os maiores coeficientes que podem estar exagerando o caso para suas respectivas variáveis.
A penalidade de L2 geralmente impede que o modelo coloque importância "demais" em qualquer variável, porque coeficientes grandes são penalizados mais que os pequenos.
Pode não parecer que "simplifique" o modelo, mas executa uma tarefa semelhante de impedir que o modelo se ajuste demais aos dados disponíveis.
Um exemplo para criar intuição
Tomemos um exemplo concreto - você pode estar tentando prever readmissões hospitalares com base nas características do paciente.
Nesse caso, você pode ter uma variável relativamente rara (como uma doença incomum) que esteja altamente correlacionada no seu conjunto de treinamento com a readmissão. Em um conjunto de dados de 10.000 pacientes, você pode ver a doença apenas 10 vezes, com 9 readmissões (um exemplo extremo para ter certeza)
Como resultado, o coeficiente pode ser massivo em relação ao coeficiente de outras variáveis. Ao minimizar a penalidade de MSE e L2, esse seria um bom candidato para que a regressão da crista diminuísse em direção a um valor menor, uma vez que é raro (não afeta tanto o MSE) e um valor extremo do coeficiente.
fonte
Não há garantia de que ter pesos menores seja realmente melhor. A regressão do laço e da cordilheira funciona impondo conhecimentos / suposições / restrições prévias na solução. Essa abordagem funcionará bem se as anteriores / premissas / restrições forem adequadas à distribuição real que gerou os dados e, caso contrário, poderão não funcionar bem. Em relação à simplicidade / complexidade, não são os modelos individuais que são mais simples ou mais complexos. Pelo contrário, é a família de modelos em consideração.
Do ponto de vista geométrico, a regressão do laço e da crista impõe restrições aos pesos. Por exemplo, a penalidade comum / forma lagrangiana de regressão de crista:
pode ser reescrito na forma de restrição equivalente:
Isso deixa claro que a regressão da crista restringe os pesos a ficarem dentro de uma hiperesfera cujo raio é governado pelo parâmetro de regularização. Da mesma forma, o laço restringe os pesos a ficarem dentro de um polítopo cujo tamanho é governado pelo parâmetro de regularização. Essas restrições significam que a maior parte do espaço original dos parâmetros está fora dos limites e procuramos os pesos ideais em um subespaço muito menor. Esse subespaço menor pode ser considerado menos 'complexo' que o espaço total.
De uma perspectiva bayesiana, pode-se pensar na distribuição posterior sobre todas as opções possíveis de pesos. A regressão do laço e da cordilheira é equivalente à estimativa do MAP após a colocação de um prior nos pesos (o laço usa um anterior laplaciano e a regressão do cordão usa um anterior gaussiano). Um posterior mais estreito corresponde a uma maior restrição e menor complexidade, pois alta densidade posterior é atribuída a um conjunto menor de parâmetros. Por exemplo, multiplicar a função de probabilidade por um prior gaussiano estreito (que corresponde a uma grande penalidade de cordilheira) produz um posterior mais estreito.
Uma das principais razões para impor restrições / prévios é que a escolha do modelo ideal de uma família mais restrita tem menos probabilidade de superajustar do que a escolha de uma família menos restrita. Isso ocorre porque a família menos restrita oferece 'mais' maneiras de ajustar os dados, e é cada vez mais provável que um deles seja capaz de ajustar flutuações aleatórias no conjunto de treinamento. Para um tratamento mais formal, consulte a troca de viés e variância . Isso não significa necessariamente que a escolha de um modelo de uma família mais restrita funcione bem. Obter um bom desempenho exige que a família restrita realmente contenha bons modelos. Isso significa que precisamos escolher uma restrição prévia / que seja adequada ao problema específico em questão.
fonte
Embora a pergunta tenha solicitado uma explicação intuitiva, na verdade existe uma derivação rigorosa do Mean Square Error (MSE) para a regressão de crista que mostra que existem valores de atingindo um MSE melhor que a regressão linear.λ
Lembre-se: Chame o estimador de para uma regressão de crista cujo parâmetro de encolhimento é e defina: .^ β λ β λ M ( λ ) = H S E ( ^ β λ )MSE(β^)=E[(β^−β)(β^−β)T] βλ^ β λ M(λ)=MSE(βλ^)
Portanto é o MSE de uma regressão linear.M(0)
Seguindo estas notas do curso, pode-se mostrar que:
Os termos são definidos positivamente, mas, para , o termo no meio é positivo também. Para esses valores, temos , mostrando que a regressão da crista reduz o erro médio quadrático.(XTX+λI)−1 λ<2σ2(βTβ)−1 M(0)>M(λ)
fonte