Suponhamos que .Xβ=Y
Não sabemos exatamente, apenas a sua correlação com cada preditor, .Y
A solução de mínimos quadrados ordinários (OLS) é e não há um problema.β =(XtX)−1XtY
Mas suponha que seja quase singular (multicolinearidade) e você precise estimar o parâmetro ideal da crista. Todos os métodos parece precisar os valores exatos de .XtX
Existe um método alternativo quando apenas é conhecido?XtY
regression
multicollinearity
Entalhe
fonte
fonte
Respostas:
Esta é uma pergunta interessante. Surpreendentemente, é possível fazer algo sob certas premissas, mas há uma potencial perda de informações sobre a variação residual. Depende de quanto é perdido.XX
Vamos considerar a seguinte decomposição do valor singular de com matriz e com colunas ortonormais, uma matriz diagonal com valores singulares positivos na diagonal e a matriz ortogonal. Então as colunas de formam uma base ortonormal para o espaço da coluna de e é o vetor de coeficientes para a projeção de neste espaço da coluna quando expandido noX = U D V tX=UDVt XX UU n×pn×p DD d1≥d2≥...≥dp>0d1≥d2≥...≥dp>0 VV p×pp×p UU XX Z=UtY=D−1VtVDUtY=D−1VtXtY
Como o preditor de regressão de crista para um dado pode ser calculado como , vemos que os coeficientes para o preditor de regressão de crista na base da coluna são Agora, assumimos a distribuição de que tem média dimensional e matriz de covariância . Então tem média dimensional e matriz de covariância . Se imaginarmos um independenteλλ ˆY=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
Por um cálculo padrão Aqui é conhecido como graus de liberdade efetivos para regressão de crista com o parâmetro . Um estimador imparcial de é E||ZNew−ˆZ||2=E||Z−ˆZ||2+2p∑i=1cov(Zi,ˆZi)=E||Z−ˆZ||2+2σ2p∑i=1d2id2i+λ⏟df(λ).
Combinamos isso com o estimador (imparcial) de dado que conhecemos , que precisamos minimizar. Obviamente, isso só pode ser feito se conhecermos ou tivermos um palpite razoável ou estimador de .err(λ)+2σ2df(λ)
Estimar pode ser mais problemático. É possível mostrar que Portanto, se é possível escolher tão pequeno que o viés quadrado pode ser ignorado, podemos tentar estimar como Se este trabalho depende muito .σ2σ2 E||Z−ˆZ||2=σ2(p−p∑i=1d2id2i+λ(2−d2id2i+λ)⏟d(λ))+bias(λ)2.
Para alguns detalhes, consulte a Seção 3.4.1 e o Capítulo 7 no ESL ou talvez até o Capítulo 2 no GAM .
fonte
Defina como na pergunta e para vários parâmetros e define dos rótulos das amostras. Então é computável, pois o desconhecido desaparece ao expandir os dois normas.ββ(λ,K)=[(XTX)KK+λI]−1(XTY)KλKe(λ,K):=‖Xβ(λ,K)−Y‖2−‖Xβ−Y‖2‖Y‖2
Isso leva ao seguinte algoritmo:
fonte