Atualmente, estou trabalhando nesse problema e o objetivo é desenvolver um modelo de regressão linear para prever meu Y (pressão arterial) com 8 preditores, usando a regressão de Ridge & Lasso. Começo examinando a importância de cada um dos preditores. Abaixo está um da minha regressão linear múltipla com como redimensionado estar em uma escala semelhante a outros preditores.
Call:
lm(formula = sys ~ age100 + sex + can + crn + inf + cpr + typ +
fra)
Residuals:
Min 1Q Median 3Q Max
-80.120 -17.019 -0.648 18.158 117.420
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.605 9.460 15.392 < 2e-16 ***
age100 -1.292 12.510 -0.103 0.91788
sex 5.078 4.756 1.068 0.28701
can -1.186 8.181 -0.145 0.88486
crn 14.545 7.971 1.825 0.06960 .
inf -13.660 4.745 -2.879 0.00444 **
cpr -12.218 9.491 -1.287 0.19954
typ -11.457 5.880 -1.948 0.05283 .
fra -10.958 9.006 -1.217 0.22518
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 31.77 on 191 degrees of freedom
Multiple R-squared: 0.1078, Adjusted R-squared: 0.07046
F-statistic: 2.886 on 8 and 191 DF, p-value: 0.004681
Simplesmente olhando para os valores P do mesa, eu escolhi e como preditores potenciais 'menos importantes'. Então eu usei para ajustar uma regressão de crista e regressão de laço de Y com todos os meus X, permita que a função escolha um valor para mim. Plotei as duas regressões, com 100 valores para cume e 65 valores para laço. Finalmente, adicione pontos situados acima dos índices 100 e 65, desenhados em valores verticais iguais às 8 estimativas dos mínimos quadrados dos coeficientes (em vermelho).
Resultando nas duas parcelas acima, algumas diferenças que eu vi foram
Parece-me razoável que Lasso eliminou duas variáveis ( e ), que parece concordar com minha suposição anterior de ter esses dois preditores como "menos importantes". Observe no gráfico de cordilheiras, o primeiro e o terceiro pontos de estimativa estão fora da linha. No entanto, na trama da moça, os pontos estão certos nessas linhas. Isso indica melhora da redução do meu preditor de cume para laço? (AKA, modelo de 6 preditores faz um trabalho melhor na adaptação dos dados do que o modelo de 8 preditores?)
Eu também tenho mais algumas perguntas:
As estimativas de regressão de crista no menor valor λ são exatamente as mesmas que as estimativas de mínimos quadrados?
Como interpretar essas duas parcelas? (o que significa para os pontos finais em vermelho na linha ou acima ou abaixo).
fonte
Respostas:
Não, os gráficos não dizem nada sobre desempenho preditivo. Se você deseja estimar isso, pode usar a validação cruzada.
Comparado aos mínimos quadrados ordinários (OLS), métodos regularizados como regressão de laço e cordilheira darão erro maior ou igual nos dados de treinamento. Mas, se você estiver interessado em desempenho preditivo, o que realmente importa é o erro em dados futuros gerados pela mesma distribuição subjacente. É isso que a validação cruzada estima. O método (e o valor deλ ) que terá um melhor desempenho depende do problema.
Se você estiver interessado em inferência estatística (ou seja, contabilizando incertezas nas estimativas de parâmetros ou identificando adequadamente um modelo "verdadeiro" subjacente), precisará de uma maneira de calcular valores de p, intervalos de confiança etc. Os procedimentos padrão projetados para O OLS não funcionará para regressão de laço e crista. Além disso, lembre-se de que existem muitas sutilezas e advertências na identificação de 'variáveis importantes'.
Quandoλ=0 a regressão da crista e o laço são equivalentes aos mínimos quadrados ordinários (OLS). Você pode ver isso escrevendo o problema de otimização para cada método e configuraçãoλ para zero:
Cada trajetória mostra o valor de um coeficiente individual à medida que é alterado. Parece que seu eixo x está incorretamente rotulado ( está diminuindo da esquerda para a direita).λ λ
Algumas coisas gerais que você pode notar nessas plotagens (que são fatos bem conhecidos sobre a regressão do laço e da crista): Ambos os métodos reduzem os coeficientes mais fortemente em direção a zero à medida que aumenta (movendo-se da direita para a esquerda no eixo x). Lasso produz soluções esparsas - à medida que aumenta, mais e mais coeficientes são levados exatamente a zero, enquanto outros permanecem relativamente grandes (é por isso que o lasso é útil para a seleção de variáveis). A regressão de Ridge não se comporta dessa maneira - à medida que aumenta, a magnitude geral dos coeficientes diminui, mas os coeficientes individuais não são levados exatamente a zero.λ λ λ
Você disse que os pontos vermelhos representam os coeficientes do OLS. Como a regressão do laço e da crista reduz os coeficientes para zero, as magnitudes serão menores que OLS quando . Seus gráficos cruzariam os pontos vermelhos em , onde todos os métodos são equivalentes.λ>0 λ=0
fonte