Parece que estou entendendo mal uma afirmação sobre métodos de regressão linear que já vi em vários lugares. Os parâmetros do problema são:
Entrada:
amostras de dados de quantidades cada um consistindo de uma "resposta" quantidade e "predictor" quantidadesy i p x i j
O resultado desejado é um "bom ajuste linear", que prevê a resposta com base nos preditores em que um bom ajuste tem pequenas diferenças entre a previsão e a resposta observada (entre outros critérios).
Saída: coeficientes que é um "bom ajuste" para prever a quantidade de resposta a partir das quantidades do preditor. β j
Estou confuso sobre a abordagem de "regressão de crista" para esse problema. Em "The Elements of Statistical Learning", de Hastie, Tibshirani e Friedman, página 63, a regressão do cume é formulada de duas maneiras.
Primeiro como o problema de otimização restrita :
p ∑ j = 1 β 2 i ≤t
O segundo é o problema de otimização penalizado : para algum parâmetro positivo . λ
O texto diz que estas formulações são equivalentes e que há uma "correspondência um a um entre os parâmetros e ". Eu já vi essa afirmação (e outras similares) em vários lugares além deste livro. Acho que estou perdendo alguma coisa porque não vejo como as formulações são equivalentes como eu a entendo.t
Consideremos o caso em que e com , e , . Escolhendo o parâmetro a formulação restrita se torna:p = 1 y 1 = 0 x 1 , 1 = 0 y 2 = 1 x 1 , 2 = 1 t = 2
expandido para
Para resolver isso, encontre a solução em que as derivadas parciais em relação a e são zero: com a solução e . Observe que conforme necessário.β 1 4 β 0 + 2 β 1 - 2 = 0 2 β 0 + 2 β 1 - 2 = 0 β 0 = 0 β 1 = 1 β 2 0 + β 2 1 ≤ t
Como essa derivação se relaciona com a outra formulação? De acordo com a explicação, existe algum valor de correspondendo exclusivamente a onde, se otimizarmos a formulação penalizada do problema, derivaremos o mesmo e . Nesse caso, o formulário penalizado se torna expandido para Para resolver isso, encontre a solução em que as derivadas parciais com respeito a
Em resumo, estou totalmente confuso com as duas apresentações e não entendo como elas se correspondem. Não entendo como você pode otimizar um formulário e obter a mesma solução para o outro formulário ou como está relacionado a . Essa é apenas uma instância desse tipo de correspondência - existem outras para outras abordagens, como o laço - e não entendo nenhuma delas.
Alguém por favor me ajude.
fonte
Respostas:
A confusão aqui vem da tentativa de trabalhar em um intervalo de valores ou onde não há restrição na regressão.t λ
No seu exemplo, no ajuste perfeito da linha de regressão, a soma dos quadrados dos coeficientes de regressão é 1. Portanto, o valor de (ou qualquer valor de que seja 1 ou maior) não impõe restrições à regressão. No espaço dos valores , toda a regressão irrestrita é representada por . Não há correspondência de um-para-um entre e na regressão irrestrita ; todos os valores de igual ou superior a 1 neste caso correspondem a . Essa foi a região que você está investigando.t λ λ = 0 t λ t λ = 0t=2 t λ λ=0 t λ t λ=0
Somente um valor de menor que 1 colocará uma restrição na regressão, correspondente aos valores positivos de . Como mostra a resposta aceita a esta página , a correspondência um-para-um entre e mantém " quando a restrição é vinculativa ", no seu exemplo para valores de menores que 1.λ t λ tt λ t λ t
fonte
A regressão clássica de Ridge ( regularização de Tikhonov ) é dada por:
A alegação acima é que o seguinte problema é equivalente:
Vamos definir como a solução ideal para o primeiro problema e como a solução ótima para o segundo problema.x^ x~
A reivindicação de equivalência significa que . Ou seja, você pode ter sempre um par de e tal a solução do problema é o mesmo.∀t,∃λ≥0:x^=x~
t λ≥0
Como poderíamos encontrar um par?
Bem, resolvendo os problemas e observando as propriedades da solução.
Ambos os problemas são convexos e suaves, tornando as coisas mais simples.
A solução para o primeiro problema é dada no ponto em que o gradiente desaparece, o que significa:
As condições KKT do segundo problema afirmam:
e
A última equação sugere que ou .μ=0 ∥x~∥22=t
Preste atenção que as 2 equações básicas são equivalentes.x^=x~ μ=λ
Ou seja, se e ambas as equações são válidas.
Então isso significa que, no caso de deve-se definir que significa que, por suficientemente grande para que ambos sejam equivalentes, deve-se definir .∥y∥22≤t μ=0 t λ=0
No outro caso, deve-se encontrar onde:μ
Isso é basicamente quando∥x~∥22=t
Depois de descobrir que as soluções colidirão.μ
Em relação ao caso , bem, ele funciona com a mesma idéia. A única diferença é que não fechamos a solução, portanto, derivar a conexão é mais complicado.L1
Veja minha resposta em StackExchange Q291962 validado cruzado e StackExchange Signal Processing Q21730 - significância de na busca de baseλ .
fonte