A estimativa de regressão tradicional da crista é
que vem da adição do termo de penalidade .
Tenho lutado para encontrar literatura sobre a regularização em direção a um valor específico . Em particular, observei um modelo de regressão de cumeeira que usa a forma de penalidade Onde é a estimativa inicial de sob a configuração de Mínimos Quadrados Iterativamente Recompensados. Por sua vez, a estimativa de regressão de crista é
O parâmetro lambda também é escolhido para ser muito grande (), o que me parece que a estimativa está tentando convergir para .
Por que regularizar em direção a um valor? Isso muda a interpretação de?
Quaisquer comentários e / ou citações serão muito apreciados. Obrigado!
regression
references
least-squares
ridge-regression
CindyLhasapoo
fonte
fonte
Respostas:
Nós temos a função de custo
onde . O mínimo é atingido emγ≥0
Observe que enquanto pode não ser invertível, é sempre invertível se .X⊤X X⊤X+γI γ>0
Se , entãoγ≫1
Para grande , temos a estimativa aproximadaγ
Se , então , conforme o esperado. Multiplicando à esquerda ambos os lados por , obtemosγ→∞ β~→β0 X
e, assim,
que nos fornece , uma aproximação do vetor de erro para grande mas finita , em termos de , o vetor de erro para infinito .y−Xβ~ γ y−Xβ0 γ
Nada disso parece particularmente perspicaz ou útil, mas pode ser melhor que nada.
fonte
Conceitualmente, pode ajudar a pensar em termos de atualização bayesiana : O termo da penalidade é equivalente a uma estimativa anterior com precisão (isto é, um gaussiano multivariado anteriorβ0 λ β∼Nβ0,I/λ).
Neste sentido, um "muito grande" que não corresponde a nenhuma em particular valor numérico. Em vez disso, seria um valor que "domina" o erro; portanto, numericamente, ele deve ser grande em relação a alguma normada matriz de design. Portanto, para o seu exemplo, não podemos dizer se é "muito grande" ou não, sem mais informações.λ ∥X∥ λ=100000
Dito isto, por que um valor "muito grande" pode ser usado? Um caso comum que eu vi na prática é que o problema real é a igualdade de mínimos quadrados , mas isso é aproximado usando a Regularização de Tikhonov com um "grande ". (Isso é um pouco mais geral do que o seu caso e corresponderia a uma matriz "ampla" , de modo que possa ser resolvido exatamente.)λ Λ Λ(β−β0)=0
fonte
Tenho uma resposta para "Por que regularizar em direção a um valor? Isso muda a interpretação de ?"β
O aprendizado de transferência é um tipo de aprendizado de máquina em que o conhecimento do domínio de origem ao executar uma tarefa é transferido para o domínio de destino ao executar a mesma tarefa, ou seja, a tarefa permanece a mesma, mas os conjuntos de dados nos dois domínios diferem.
Uma maneira de realizar o aprendizado de transferência é o compartilhamento de parâmetros. A intuição de alto nível é que os parâmetros do modelo de domínio de destino devem estar muito próximos dos parâmetros do modelo de domínio de origem e, ao mesmo tempo, permitir alguma incerteza. Matematicamente, essa intuição é capturada penalizando o desvio dos parâmetros, ou seja, , onde, é o parâmetro de penalização e W é um vetor de parâmetros do modelo.λ∥Wtarget−Wsource∥22 λ
Eu usei essa abordagem para realizar o aprendizado de transferência para campos aleatórios condicionais , veja Eq. 4 e texto relacionado.
Eu tive uma pergunta semelhante para a regressão de Ridge postada aqui sobre a interpretabilidade da solução de formulário fechado.
fonte
É possível entendê-lo do ponto de vista bayesiano .
A regularização de Ridge para regressão linear é um método bayesiano disfarçado. Veja: https://en.wikipedia.org/wiki/Lasso_(statistics)#Bayesian_interpretation (é mais fácil entender explicado na página Lasso da wikipedia, mas é a mesma idéia com Ridge).
A convenção que uso para regularização é a seguinte. Minimize: . Suponha que o ruído tenha variação para simplificar (caso contrário, substitua por todos os lugares).(∑i=1N(yi−βxi)2)+λ∥β−β0∥2 σ2=1 λ λ/σ2
Regularização com coeficiente significa assumir um anterior normal : "Espero como crença prévia de que os coeficientes são pequenos": A distribuição anterior é uma distribuição normal com média e "raio" . Regularizar para significa assumir um anterior normal : "Espero como crença prévia de que os coeficientes não estão longe de ": a distribuição anterior é normal distribuição com média e "raio" .λ N(0;1λI) 0 1λ−−√ β0 N(β0;1λI) β0 β0 1λ−−√
Essa prévia geralmente resulta de um treinamento anterior que forneceu como uma estimativa. A força da sua crença é o poder estatístico do seu primeiro conjunto de treinamento. Um grande lambda significa que você tinha muitas informações anteriormente; sua crença é levemente alterada para cada nova amostra: uma pequena atualização por amostra.β0 λ
fonte