Regressão Bayesian Ridge é outro nome de Regressão Linear Bayesiana?

11

Eu pesquisei sobre a regressão Bayesian Ridge na Internet, mas a maior parte do resultado que me tornei é sobre a regressão linear bayesiana. Gostaria de saber se são as mesmas coisas, porque a fórmula parece bastante semelhante

Thien
fonte

Respostas:

20

A regressão de Ridge usa regularização com a norma L2 , enquanto a regressão bayesiana é um modelo de regressão definido em termos probabilísticos, com prévios explícitos nos parâmetros. A escolha dos anteriores pode ter o efeito de regularização, por exemplo, o uso dos anteriores de Laplace para coeficientes é equivalente à regularização de L1 . Eles não são os mesmos, porque a regressão de cume é um tipo de modelo de regressão, e a abordagem bayesiana é uma maneira geral de definir e estimar modelos estatísticos que podem ser aplicados a diferentes modelos.

O modelo de regressão de Ridge é definido como

argminβyXβ22+λβ22

No cenário bayesiano, estimamos a distribuição posterior usando o teorema de Bayes

p(θ|X)p(X|θ)p(θ)

Regressão de Ridge significa assumir a probabilidade Normal e Normal antes dos parâmetros. Depois de deixar cair a constante de normalização, a função de densidade de log da distribuição normal é

logp(x|μ,σ)=log[1σ2πe12(xμσ)2]=log[1σ2π]+log[e12(xμσ)2]12(xμσ)21σ2xμ22

Agora você pode ver que maximizar a probabilidade normal de log, com anteriores normais, é equivalente a minimizar a perda ao quadrado, com penalidade de crista

argmaxβlogN(y|Xβ,σ)+logN(0,τ)=argminβ{logN(y|Xβ,σ)+logN(0,τ)}=argminβ1σ2yXβ22+1τ2β22

Para ler mais sobre regressão e regularização de cume, consulte os tópicos: Por que a estimativa de cume se torna melhor que OLS adicionando uma constante à diagonal? e Que problema os métodos de encolhimento resolvem? , e quando devo usar o laço vs cume? , e Por que a regressão do cume é chamada "cume", por que é necessária e o que acontece quando chega ao infinito? λe muitos outros que temos .

Tim
fonte
Obrigado pela resposta! Tentei entender quais são as vantagens da norma , a explicação sobre o Scikit é um pouco complicada para mim. Seria bom se você pudesse apontar o problema com os Mínimos Quadrados Ordinários normaisL2
Thien
1
@Thien veja a edição para alguns links
Tim