Regressão de Ridge e Regressão de Lasso

7

Atualmente, estou trabalhando nesse problema e o objetivo é desenvolver um modelo de regressão linear para prever meu Y (pressão arterial) com 8 preditores, usando a regressão de Ridge & Lasso. Começo examinando a importância de cada um dos preditores. Abaixo está umsummary() da minha regressão linear múltipla com age100 como redimensionado age estar em uma escala semelhante a outros preditores.

Call:
lm(formula = sys ~ age100 + sex + can + crn + inf + cpr + typ + 
fra)

Residuals:
Min      1Q  Median      3Q     Max 
-80.120 -17.019  -0.648  18.158 117.420 

Coefficients:
        Estimate Std. Error t value Pr(>|t|)    
(Intercept)  145.605      9.460  15.392  < 2e-16 ***
age100        -1.292     12.510  -0.103  0.91788    
sex            5.078      4.756   1.068  0.28701    
can           -1.186      8.181  -0.145  0.88486    
crn           14.545      7.971   1.825  0.06960 .  
inf          -13.660      4.745  -2.879  0.00444 ** 
cpr          -12.218      9.491  -1.287  0.19954    
typ          -11.457      5.880  -1.948  0.05283 .  
fra          -10.958      9.006  -1.217  0.22518    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 31.77 on 191 degrees of freedom
Multiple R-squared:  0.1078,    Adjusted R-squared:  0.07046 
F-statistic: 2.886 on 8 and 191 DF,  p-value: 0.004681

Simplesmente olhando para os valores P do summary() mesa, eu escolhi age100 e cancomo preditores potenciais 'menos importantes'. Então eu useiglmnet() para ajustar uma regressão de crista e regressão de laço de Y com todos os meus X, permita que a função escolha um λvalor para mim. Plotei as duas regressões, com 100λ valores para cume e 65 λvalores para laço. Finalmente, adicione pontos situados acima dos índices 100 e 65, desenhados em valores verticais iguais às 8 estimativas dos mínimos quadrados dos coeficientes (em vermelho).

insira a descrição da imagem aqui insira a descrição da imagem aqui

Resultando nas duas parcelas acima, algumas diferenças que eu vi foram

Parece-me razoável que Lasso eliminou duas variáveis ​​(age100 e can), que parece concordar com minha suposição anterior de ter esses dois preditores como "menos importantes". Observe no gráfico de cordilheiras, o primeiro e o terceiro pontos de estimativa estão fora da linha. No entanto, na trama da moça, os pontos estão certos nessas linhas. Isso indica melhora da redução do meu preditor de cume para laço? (AKA, modelo de 6 preditores faz um trabalho melhor na adaptação dos dados do que o modelo de 8 preditores?)

Eu também tenho mais algumas perguntas:

  1. As estimativas de regressão de crista no menor valor λ são exatamente as mesmas que as estimativas de mínimos quadrados?

  2. Como interpretar essas duas parcelas? (o que significa para os pontos finais em vermelho na linha ou acima ou abaixo).

SirBanana
fonte
Em relação às suas duas perguntas adicionais, a interpretação dos gráficos e o parâmetro λvocê deve encontrar respostas em outras partes deste site. 1) a resposta é "sim" sem penalidade (λ=0) você obtém apenas a estimativa do OLS 2) os gráficos são os coeficientes estimados em função do parâmetro λ(aparentemente, 'lamda' ou 'lambda' é o que está escrito, mas acho que isso está errado, parece que o eixo x é a norma ou algo assim). Em relação à interpretação. 1thing: para o Lasso, observe o aumento no número de componentes diferentes de zero à medida que o parâmetro do eixo x aumenta.
Sextus Empiricus
Para obter mais especificações da segunda pergunta adicional, você deve dizer melhor como esses gráficos foram criados (o código), bem como que tipo de interpretação você está procurando.
Sextus Empiricus

Respostas:

1

Isso indica melhora da redução do meu preditor de cume para laço?

Não, os gráficos não dizem nada sobre desempenho preditivo. Se você deseja estimar isso, pode usar a validação cruzada.

AKA, modelo de 6 preditores faz um trabalho melhor na adaptação dos dados do que o modelo de 8 preditores?

Comparado aos mínimos quadrados ordinários (OLS), métodos regularizados como regressão de laço e cordilheira darão erro maior ou igual nos dados de treinamento. Mas, se você estiver interessado em desempenho preditivo, o que realmente importa é o erro em dados futuros gerados pela mesma distribuição subjacente. É isso que a validação cruzada estima. O método (e o valor deλ) que terá um melhor desempenho depende do problema.

Se você estiver interessado em inferência estatística (ou seja, contabilizando incertezas nas estimativas de parâmetros ou identificando adequadamente um modelo "verdadeiro" subjacente), precisará de uma maneira de calcular valores de p, intervalos de confiança etc. Os procedimentos padrão projetados para O OLS não funcionará para regressão de laço e crista. Além disso, lembre-se de que existem muitas sutilezas e advertências na identificação de 'variáveis ​​importantes'.

  1. As estimativas de regressão de crista são as menores λ valor exatamente o mesmo que as estimativas de mínimos quadrados?

Quando λ=0a regressão da crista e o laço são equivalentes aos mínimos quadrados ordinários (OLS). Você pode ver isso escrevendo o problema de otimização para cada método e configuraçãoλ para zero:

βOLS=argminβi=1n(yiβxi)2

βlasso=argminβi=1n(yiβxi)2+λβ1

βridge=argminβi=1n(yiβxi)2+λβ22
  1. Como interpretar essas duas parcelas?

Cada trajetória mostra o valor de um coeficiente individual à medida que é alterado. Parece que seu eixo x está incorretamente rotulado ( está diminuindo da esquerda para a direita).λλ

Algumas coisas gerais que você pode notar nessas plotagens (que são fatos bem conhecidos sobre a regressão do laço e da crista): Ambos os métodos reduzem os coeficientes mais fortemente em direção a zero à medida que aumenta (movendo-se da direita para a esquerda no eixo x). Lasso produz soluções esparsas - à medida que aumenta, mais e mais coeficientes são levados exatamente a zero, enquanto outros permanecem relativamente grandes (é por isso que o lasso é útil para a seleção de variáveis). A regressão de Ridge não se comporta dessa maneira - à medida que aumenta, a magnitude geral dos coeficientes diminui, mas os coeficientes individuais não são levados exatamente a zero.λλλ

o que significa para os pontos finais em vermelho na linha ou acima ou abaixo

Você disse que os pontos vermelhos representam os coeficientes do OLS. Como a regressão do laço e da crista reduz os coeficientes para zero, as magnitudes serão menores que OLS quando . Seus gráficos cruzariam os pontos vermelhos em , onde todos os métodos são equivalentes.λ>0λ=0

user20160
fonte