Regressão linear quando você conhece apenas , não diretamente

13

Suponhamos que .Xβ=YXβ=Y

Não sabemos exatamente, apenas a sua correlação com cada preditor, .YYXtYXtY

A solução de mínimos quadrados ordinários (OLS) é e não há um problema.β =(XtX)1XtYβ=(XtX)1XtY

Mas suponha que seja quase singular (multicolinearidade) e você precise estimar o parâmetro ideal da crista. Todos os métodos parece precisar os valores exatos de .XtXXtXYY

Existe um método alternativo quando apenas é conhecido?XtYXtY

Entalhe
fonte
pergunta interessante. Talvez algum tipo de EM algoritmo iria trabalhar ...
probabilityislogic
Não entendo, você não pode usar a validação cruzada para estimar o parâmetro ideal de cume?
Pardis
@Pardis: Nenhuma função de perda é dada na pergunta, portanto não sabemos o que significa ótimo . Você consegue ver o problema que encontramos se a função de perda for o MSE?
cardeal
1
@ JohnSmith: Você está fazendo alusão ao ponto em que eu estava dirigindo. Não há indicação de como medir a "otimização". O que você está efetivamente fazendo é introduzir uma métrica diferente (função de distância) para medir a "qualidade" da previsão ou ajuste. Precisamos de mais detalhes do OP para ir muito longe, eu suspeito.
cardeal
1
@Pardis: Encontrar as estimativas não é o problema, como você observa. :) No entanto, se você decidir fazer a validação cruzada, como estimará o MSE fora da amostra, ou seja, na dobra esquerda para cada iteração? :)
cardeal

Respostas:

8

Esta é uma pergunta interessante. Surpreendentemente, é possível fazer algo sob certas premissas, mas há uma potencial perda de informações sobre a variação residual. Depende de quanto é perdido.XX

Vamos considerar a seguinte decomposição do valor singular de com matriz e com colunas ortonormais, uma matriz diagonal com valores singulares positivos na diagonal e a matriz ortogonal. Então as colunas de formam uma base ortonormal para o espaço da coluna de e é o vetor de coeficientes para a projeção de neste espaço da coluna quando expandido noX = U D V tX=UDVt XXUUn×pn×pDDd1d2...dp>0d1d2...dp>0VVp×pp×pUUXXZ=UtY=D1VtVDUtY=D1VtXtY

Z=UtY=D1VtVDUtY=D1VtXtY
YYUUBase emA partir da fórmula vemos que é calculável a partir do conhecimento de e única.ZZXXXtYXtY

Como o preditor de regressão de crista para um dado pode ser calculado como , vemos que os coeficientes para o preditor de regressão de crista na base da coluna são Agora, assumimos a distribuição de que tem média dimensional e matriz de covariância . Então tem média dimensional e matriz de covariância . Se imaginarmos um independenteλλˆY=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
UUˆZ=D(D2+λI)1DZ.
Z^=D(D2+λI)1DZ.
YYnnξξσ2Inσ2InZZppUtξUtξσ2Ipσ2IpYNewYNew com a mesma distribuição que (tudo condicionalmente em partir daqui) o tem o mesmo distribuição como e é independente e Aqui a terceira igualdade segue pela ortogonalidade de e e a quarta pelo fato de queYYXXZNew=UtYNewZNew=UtYNewZZE||YNewˆY||2=E||YNewUZNew+UZNewUˆZ||2=E||YNewUZNew||2+E||UZNewUˆZ||2=Err0+E||ZNewˆZ||2.
E||YNewY^||2===E||YNewUZNew+UZNewUZ^||2E||YNewUZNew||2+E||UZNewUZ^||2Err0+E||ZNewZ^||2.
YNewUZNewYNewUZNewUZNewUˆZUZNewUZ^UU tem colunas ortonormais. A quantidade é um erro sobre o qual não podemos obter informações, mas também não depende de . Para minimizar o erro de previsão no lado esquerdo, temos que minimizar o segundo termo no lado direito.Err0Err0λλ

Por um cálculo padrão Aqui é conhecido como graus de liberdade efetivos para regressão de crista com o parâmetro . Um estimador imparcial de é E||ZNewˆZ||2=E||ZˆZ||2+2pi=1cov(Zi,ˆZi)=E||ZˆZ||2+2σ2pi=1d2id2i+λdf(λ).

E||ZNewZ^||2==E||ZZ^||2+2i=1pcov(Zi,Z^i)E||ZZ^||2+2σ2i=1pd2id2i+λdf(λ).
df(λ)df(λ)λλE||ZˆZ||2E||ZZ^||2err(λ)=||ZˆZ||2=pi=1(1d2id2i+λ)2Z2i.
err(λ)=||ZZ^||2=i=1p(1d2id2i+λ)2Z2i.

Combinamos isso com o estimador (imparcial) de dado que conhecemos , que precisamos minimizar. Obviamente, isso só pode ser feito se conhecermos ou tivermos um palpite razoável ou estimador de .err(λ)+2σ2df(λ)

err(λ)+2σ2df(λ)
E||ZNewˆZ||2E||ZNewZ^||2σ2σ2σ2σ2σ2σ2

Estimar pode ser mais problemático. É possível mostrar que Portanto, se é possível escolher tão pequeno que o viés quadrado pode ser ignorado, podemos tentar estimar como Se este trabalho depende muito .σ2σ2E||ZˆZ||2=σ2(ppi=1d2id2i+λ(2d2id2i+λ)d(λ))+bias(λ)2.

E||ZZ^||2=σ2pi=1pd2id2i+λ(2d2id2i+λ)d(λ)+bias(λ)2.
λλσ2σ2ˆσ2=1pd(λ)||ZˆZ||2.
σ^2=1pd(λ)||ZZ^||2.
X

Para alguns detalhes, consulte a Seção 3.4.1 e o Capítulo 7 no ESL ou talvez até o Capítulo 2 no GAM .

NRH
fonte
0

Defina como na pergunta e para vários parâmetros e define dos rótulos das amostras. Então é computável, pois o desconhecido desaparece ao expandir os dois normas.ββ(λ,K)=[(XTX)KK+λI]1(XTY)KλKe(λ,K):=Xβ(λ,K)Y2XβY2Y2

Isso leva ao seguinte algoritmo:

  • Calcule a para algumas escolhas do conjunto de treinamento .e(λ,K)K
  • Plote os resultados em função de .λ
  • Aceite o valor que a plotagem é mais plana.λ
  • Use como estimativa final.β=[XTX+λI]1XTY
Arnold Neumaier
fonte
1
Eu estou supondo "onde o enredo é mais plana" será em muito pequeno, como cerca de 0 :)λ
jbowman
@bowbow: Isso acontecerá apenas se o problema estiver bem condicionado e não precisar de regularização, então é realmente adequado. No caso mal condicionado, a previsão dos itens fora de será ruim por causa do ajuste excessivo, e será, portanto, grande. λ=0Ke(λ,K)
Arnold Neumaier
3
@ArnoldNeumaier: não é computável. Conhecemos apenas a correlação com cada preditor. está no "domínio do preditor", não no "domínio Y" (se N for o tamanho da amostra ep o número de preditores, teremos apenas valores de p, um para cada preditor). (XTY)K(XTY)
Jag
@ Jag: Então não há informações suficientes para selecionar . Mas deve ter sido coletado de alguma maneira. Se durante a coleta você particionar a amostra em lotes e montar o separadamente para cada lote, poderá-se reservar um lote para validação cruzada. λXTYkXTY
Arnold Neumaier
@ ArnoldNeumaier: são dados externamente, não são coletados. XTY
Jag