Estou tendo alguns problemas com a derivação da solução para regressão de crista.
Conheço a solução de regressão sem o termo de regularização:
Porém, após adicionar o termo L2 à função cost, como é que a solução se torna
Estou tendo alguns problemas com a derivação da solução para regressão de crista.
Conheço a solução de regressão sem o termo de regularização:
Porém, após adicionar o termo L2 à função cost, como é que a solução se torna
Basta modificar a função de perda adicionando a penalidade. Em termos matriciais, a função de perda quadrática inicial se torna
Vamos desenvolver o que sabemos, que sempre que a matriz do modelo é , a resposta vetor é e o parâmetro vetor é , a função objetivon×p X n y p β
(que é a soma dos quadrados dos resíduos) é minimizada quando resolve as equações normaisβ
A regressão de Ridge adiciona outro termo à função objetivo (geralmente depois de padronizar todas as variáveis para colocá-las em pé de igualdade), pedindo para minimizar
para alguma constante não negativa . É a soma dos quadrados dos resíduos mais um múltiplo da soma dos quadrados dos próprios coeficientes (tornando óbvio que ele tem um mínimo global). Como , ele possui uma raiz quadrada positiva .λ λ≥0 ν2=λ
Considere a matriz aumentada com linhas correspondentes a vezes a matriz de identidade :X ν p×p I
Quando o vetor é similarmente estendido com zeros no final para , o produto da matriz na função objetivo adiciona termos adicionais da forma ao objetivo original. Assim sendoy p y∗ p (0−νβi)2=λβ2i
A partir da forma da expressão da mão esquerda, é imediato que as equações normais sejam
Como juntamos zeros no final de , o lado direito é o mesmo que . No lado esquerdo, é adicionado ao . Portanto, as novas equações normais simplificam paray X′y ν2I=λI X′X
Além de ser conceitualmente econômico - nenhuma nova manipulação é necessária para obter esse resultado - também é computacionalmente econômico: seu software para fazer mínimos quadrados comuns também fará regressão de crista sem qualquer alteração. (No entanto, pode ser útil em grandes problemas usar software projetado para essa finalidade, porque ele explorará a estrutura especial de para obter resultados eficientemente para um intervalo densamente espaçado de , permitindo que você explore como as respostas variam com .)X∗ λ λ
Outra beleza dessa maneira de ver as coisas é como ela pode nos ajudar a entender a regressão da crista. Quando queremos realmente entender a regressão, quase sempre ajuda pensar nela geometricamente: as colunas de constituem vetores em um espaço vetorial real da dimensão . Ao unir a , prolongando-os de vetores para vetores, estamos incorporando em um espaço maior incluindo direções "imaginárias", mutuamente ortogonais. A primeira coluna deX p n νI X n n+p Rn Rn+p p X recebe um pequeno componente imaginário de tamanho , prolongando-o e movendo-o para fora do espaço gerado pelas colunas originais . A segunda, terceira, ..., colunas são igualmente alongadas e movidas para fora do espaço original pela mesma quantidade - mas todas em novas direções diferentes. Consequentemente, qualquer colinearidade presente nas colunas originais será resolvida imediatamente . Além disso, quanto maior o número de , mais esses novos vetores se aproximam doν p pth ν ν p direções imaginárias: elas se tornam cada vez mais ortonormais. Conseqüentemente, a solução das equações normais se tornará possível imediatamente e se tornará numericamente estável à medida que aumenta de .ν 0
Essa descrição do processo sugere algumas abordagens inovadoras e criativas para solucionar os problemas que a Regressão de Ridge foi projetada para lidar. Por exemplo, usando qualquer meio (como a decomposição de variância descrita por Belsley, Kuh e Welsch em seu livro de 1980 sobre Regression Diagnostics , capítulo 3), você poderá identificar subgrupos de colunas quase colineares de , em que cada subgrupo é quase ortogonal a qualquer outro. Você só precisa contíguo tantas linhas para (e zeros para ) como existem elementos no maior grupo, dedicando uma nova dimensão "imaginária" para deslocar cada elemento de um grupo longe de seus irmãos: você não precisa imaginário dimensões para fazer isso.X X y p
fonte
A derivação inclui cálculo de matriz, que pode ser bastante entediante. Gostaríamos de resolver o seguinte problema:
Agora observe que e Juntos, chegamos à condição de primeira ordem Isolar gera a solução:
fonte
Recentemente, deparei com a mesma pergunta no contexto de P-Splines e, como o conceito é o mesmo, quero dar uma resposta mais detalhada sobre a derivação do estimador de crista.
Começamos com uma função de critério penalizado que difere da função clássica de critério OLS pelo seu termo de penalização no último somatório:
Onde
Podemos reescrever esse critério na notação matricial e detalhá-lo:
Agora, pesquisamos o que minimiza nosso critério. Entre outros, usamos a regra de diferenciação de matrizes que podemos aplique aqui como :β ∂xTAx∂x=(A+AT)x=A symmetric2Ax (XTX+λI)∈Rn×n
fonte
Há algumas coisas importantes que estão faltando nas respostas dadas.
A solução para é derivada da condição necessária de primeira ordem: que gera . Mas isso é suficiente? Ou seja, a solução é um mínimo global somente se for estritamente convexo. Isso pode ser mostrado como verdadeiro.β ∂fridge(β,λ)∂β=0 β=(XTX+λI)−1XTY fridge(β,λ)
Outra maneira de analisar o problema é ver a equivalência entre e restrito a . OLS significa Mínimos Quadrados Ordinários. Nesta perspectiva, é apenas a função lagrangiana usada para encontrar os mínimos globais da função objetivo convexa restringida pela função convexa .fridge(β,λ) fOLS(β)=(Y−βTX)T(Y−βTX) ||β||22≤t fridge(β,λ) fOLS(β) ||β||22
Uma boa explicação para esses pontos e a derivação de podem ser encontradas nessas notas de aula: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ
fonte