Regressão de Ridge: regularizando em direção a um valor

7

A estimativa de regressão tradicional da crista é

β^ridge=(XTX+λI)1XTY

que vem da adição do termo de penalidade λ||β||22.

Tenho lutado para encontrar literatura sobre a regularização em direção a um valor específico . Em particular, observei um modelo de regressão de cumeeira que usa a forma de penalidadeλ||βB||22 Onde B é a estimativa inicial de βsob a configuração de Mínimos Quadrados Iterativamente Recompensados. Por sua vez, a estimativa de regressão de crista é

β^ridge=(XTX+λI)1(XTY+λB).

O parâmetro lambda também é escolhido para ser muito grande (λ=100000), o que me parece que a estimativa está tentando convergir para B.

Por que regularizar em direção a um valor? Isso muda a interpretação deβ?

Quaisquer comentários e / ou citações serão muito apreciados. Obrigado!

CindyLhasapoo
fonte
3
Não sigo completamente sua pergunta, porque ela parece se referir a várias coisas diferentes: regularização, IRLS e foco em um valor específico. No que diz respeito ao último, no entanto, se você substituirY de YXB, basta aplicar a Regressão de cume padrão. Se é uma boa ideia ou não, depende do que o IRLS está realizando para seus dados: obviamente, os resultados podem ser extremamente sensíveis à estimativa do IRLS.
whuber
Eu realmente só queria saber o propósito do termo de penalidade que eles usavam e se a estimativa da crista ainda tem alguma interpretação. oβ aqui está uma matriz no papel, mas o Y e Xainda são vetores. O que não consigo entender é o que eles fazem na estimativa final da matriz preditora. Eu esperaria que alguma estrutura em que a diagonal domine acima e abaixo tenha algumas contribuições, pense na diagonal do bloco. No entanto, esse não é o caso, então eu me pergunto se a interpretação é alterada ao usar diferentes combinações de valores de penalidade e crista.
CindyLhasapoo 27/10/16
Eu não sigo você, porque não faz sentido matemático ou estatístico para X e Y ser vetores e βser uma matriz. UsualmenteX é a matriz de design (contém os valores de todas as variáveis ​​do regressor), Y é um vetor (de respostas) e βé um vetor de coeficientes. Se você deseja entender o que significa a estimativa da Regressão de Ridge, revise o que é Regressão de Ridge: como apontei no meu primeiro comentário, o que você descreve pode ser reformulado como um modelo padrão de Regressão de Ridge.
whuber
Regularizar para algum outro valor diferente de zero pode ser implementado usando compensações, se o software implementar isso.
Kjetil b halvorsen
Em stats.stackexchange.com/a/311490/919 , forneço os detalhes do argumento de que regularizar para um valor específico é o mesmo que regularizar para 0. Isso deve ajudar na interpretação.
whuber

Respostas:

5

Nós temos a função de custo

yXβ22+γββ022

onde . O mínimo é atingido emγ0

β^:=(XX+γI)1(Xy+γβ0)

Observe que enquanto pode não ser invertível, é sempre invertível se .XXXX+γIγ>0

Se , entãoγ1

β^=(XX+γI)1(Xy+γβ0)=(γ1XX+I)1(γ1Xy+β0)(Iγ1XX)(β0+γ1Xy)(Iγ1XX)β0+γ1Xy=β0+γ1X(yXβ0)

Para grande , temos a estimativa aproximadaγ

β~:=β0+γ1X(yXβ0)

Se , então , conforme o esperado. Multiplicando à esquerda ambos os lados por , obtemosγβ~β0X

Xβ~=Xβ0+γ1XX(yXβ0)

e, assim,

yXβ~=(Iγ1XX)(yXβ0)

que nos fornece , uma aproximação do vetor de erro para grande mas finita , em termos de , o vetor de erro para infinito .yXβ~ γyXβ0γ

Nada disso parece particularmente perspicaz ou útil, mas pode ser melhor que nada.

Rodrigo de Azevedo
fonte
Reescreva e . Agora você tem a configuração usual de regressão de cume para o custo , permitindo que você anote a solução imediatamente. ββ0=αy=zXβ0||zXα||2+γ||α||2
whuber
3

Conceitualmente, pode ajudar a pensar em termos de atualização bayesiana : O termo da penalidade é equivalente a uma estimativa anterior com precisão (isto é, um gaussiano multivariado anteriorβ0 λβNβ0,I/λ).

Neste sentido, um "muito grande" que não corresponde a nenhuma em particular valor numérico. Em vez disso, seria um valor que "domina" o erro; portanto, numericamente, ele deve ser grande em relação a alguma normada matriz de design. Portanto, para o seu exemplo, não podemos dizer se é "muito grande" ou não, sem mais informações.λXλ=100000

Dito isto, por que um valor "muito grande" pode ser usado? Um caso comum que eu vi na prática é que o problema real é a igualdade de mínimos quadrados , mas isso é aproximado usando a Regularização de Tikhonov com um "grande ". (Isso é um pouco mais geral do que o seu caso e corresponderia a uma matriz "ampla" , de modo que possa ser resolvido exatamente.)λΛΛ(ββ0)=0

GeoMatt22
fonte
Normalmente, a regressão de cume é realizada somente após a padronização das colunas de , permitindo que tenha algum significado intrínseco. Xλ
whuber
@whuber obrigado pela informação, que eu não sabia.
GeoMatt22
Eu acho que é se o segundo parâmetro representa a matriz de covariância. Nβ0,I/λ
Benoit Sanchez
@BenoitSanchez thanks! Não sei o que eu estava pensando, como eu o chamei de precisão apenas 5 palavras antes :)
GeoMatt22
Eu estava escrevendo uma resposta semelhante quando li o seu e pensou um de nós pode estar faltando alguma coisa :-)
Benoit Sanchez
2

Tenho uma resposta para "Por que regularizar em direção a um valor? Isso muda a interpretação de ?"β

O aprendizado de transferência é um tipo de aprendizado de máquina em que o conhecimento do domínio de origem ao executar uma tarefa é transferido para o domínio de destino ao executar a mesma tarefa, ou seja, a tarefa permanece a mesma, mas os conjuntos de dados nos dois domínios diferem.

Uma maneira de realizar o aprendizado de transferência é o compartilhamento de parâmetros. A intuição de alto nível é que os parâmetros do modelo de domínio de destino devem estar muito próximos dos parâmetros do modelo de domínio de origem e, ao mesmo tempo, permitir alguma incerteza. Matematicamente, essa intuição é capturada penalizando o desvio dos parâmetros, ou seja, , onde, é o parâmetro de penalização e W é um vetor de parâmetros do modelo.λWtargetWsource22λ

Eu usei essa abordagem para realizar o aprendizado de transferência para campos aleatórios condicionais , veja Eq. 4 e texto relacionado.

Eu tive uma pergunta semelhante para a regressão de Ridge postada aqui sobre a interpretabilidade da solução de formulário fechado.

anataraj
fonte
1

É possível entendê-lo do ponto de vista bayesiano .

A regularização de Ridge para regressão linear é um método bayesiano disfarçado. Veja: https://en.wikipedia.org/wiki/Lasso_(statistics)#Bayesian_interpretation (é mais fácil entender explicado na página Lasso da wikipedia, mas é a mesma idéia com Ridge).

A convenção que uso para regularização é a seguinte. Minimize: . Suponha que o ruído tenha variação para simplificar (caso contrário, substitua por todos os lugares).(i=1N(yiβxi)2)+λββ02σ2=1λλ/σ2

Regularização com coeficiente significa assumir um anterior normal : "Espero como crença prévia de que os coeficientes são pequenos": A distribuição anterior é uma distribuição normal com média e "raio" . Regularizar para significa assumir um anterior normal : "Espero como crença prévia de que os coeficientes não estão longe de ": a distribuição anterior é normal distribuição com média e "raio" .λN(0;1λI)01λβ0N(β0;1λI)β0β01λ

Essa prévia geralmente resulta de um treinamento anterior que forneceu como uma estimativa. A força da sua crença é o poder estatístico do seu primeiro conjunto de treinamento. Um grande lambda significa que você tinha muitas informações anteriormente; sua crença é levemente alterada para cada nova amostra: uma pequena atualização por amostra.β0λ

Benoit Sanchez
fonte