Prova da fórmula LOOCV

18

De Uma Introdução à Aprendizagem Estatística de James et al., A estimativa de validação cruzada de saída única (LOOCV) é definida por que .

cv(n)=1nEu=1nMSEEu
MSEEu=(yEu-y^Eu)2

Sem prova, a equação (5.2) afirma que, para mínimos quadrados ou regressão polinomial (se isso se aplica à regressão em apenas uma variável é desconhecida para mim), onde " está o o valor ajustado do ajuste dos mínimos quadrados originais ( não faço ideia do que isso significa, a propósito , significa usar todos os pontos no conjunto de dados?) e é a alavancagem "definida poryii

cv(n)=1nEu=1n(yEu-y^Eu1-hEu)2
y^EuEuhEu
hEu=1n+(xEu-x¯)2j=1n(xj-x¯)2.

Como alguém prova isso?

Minha tentativa: pode-se começar observando que mas separados disso (e se bem me lembro, essa fórmula para é verdadeira apenas para regressão linear simples ...), não tenho certeza de como proceder a partir daqui.hi

y^Eu=β0 0+Eu=1kβkXk+alguns termos polinomiais de grau 2
hEu
Clarinetist
fonte
Suas equações parecem usar para mais de uma coisa ou estou muito confuso. De qualquer maneira, uma clareza adicional seria boa. Eu
Glen_b -Reinstala Monica
@Glen_b Acabei de aprender sobre o LOOCV ontem, então talvez eu não entenda algumas coisas corretamente. Pelo que entendi, você tem um conjunto de pontos de dados, digamos . Com LOOCV, você tem para cada fixo (número inteiro positivo) algum conjunto de validação e um conjunto de testes usado para gerar um modelo ajustado para cada . Por exemplo, digamos, ajustamos nosso modelo usando regressão linear simples com três pontos de dados, . Teríamos (para ser continuado) #k V k = { ( x k , y k ) } T k = XV k k X = { ( 0 , 1 ) , ( 1 , 2 ) , ( 2 , 3 ) }X={(xi,yi):iZ+}kVk={(xk,yk)}Tk=XVkkX={(0 0,1),(1,2),(2,3)}
Clarinetist
@Glen_b e . Usando os pontos em , podemos descobrir que, usando uma regressão linear simples, obtemos o modelo . Em seguida, calculamos o usando como o conjunto de validação e obtemos (apenas usando o ponto fornecido) e , fornecendo . Ok, talvez usar o sobrescrito não tenha sido a melhor ideia - vou mudar isso no post original. t 1 ={(1,2),(2,3)} t 1 y i =X+1MSE V 1 y 1 =1 y ( 1 ) 1 =0+1=1 MSE 1 =0V1={(0 0,1)}T1={(1,2),(2,3)}T1y^Eu=X+1MSEV1y1=1y^1(1)=0 0+1=1MSE1=0 0
Clarinetist
aqui estão algumas notas de aula sobre a derivação pages.iu.edu/~dajmcdon/teaching/2014spring/s682/lectures/...
Xavier Bourret Sicotte

Respostas:

17

Mostrarei o resultado para qualquer regressão linear múltipla, independentemente de os regressores serem polinômios de . De fato, mostra um pouco mais do que você solicitou, porque mostra que cada residual LOOCV é idêntico ao resíduo ponderado por alavancagem correspondente da regressão completa, não apenas que você pode obter o erro LOOCV como em (5.2) (existe pode haver outras maneiras pelas quais as médias concordam, mesmo que nem cada termo na média seja o mesmo).Xt

Deixe-me tomar a liberdade de usar notação ligeiramente adaptada.

Primeiro mostramos que onde é a estimativa usando todos os dados e a estimativa ao deixar de fora , observação . Seja definido como um vetor de linha tal que . são os resíduos.(A) β β (t)X(t)tXt y t=Xt β u t

β^-β^(t)=(você^t1-ht)(XX)-1Xt,(UMA)
β^β^(t)X(t)tXty^t=Xtβ^você^t

A prova usa o seguinte resultado algébrico da matriz.

Seja uma matriz não singular, um vetor e um escalar. Se Então b λ λUMAbλ (A+λbb)-1

λ-1bUMA-1b
(UMA+λbb)-1=UMA-1-(λ1+λbUMA-1b)UMA-1bbUMA-1(B) 

A prova de (B) segue imediatamente da verificação

{UMA-1-(λ1+λbUMA-1b)UMA-1bbUMA-1}(UMA+λbb)=Eu.

O seguinte resultado é útil para provar (A)

(X(t)X(t))-1Xt=(11-ht)(XX)-1Xt. (C)

Prova de (C): Por (B), temos, usando , Então, encontramos t=1TXtXt=XX(X(

(X(t)X(t))-1=(XX-XtXt)-1=(XX)-1+(XX)-1XtXt(XX)-11-Xt(XX)-1Xt.
(X(t)X(t))-1Xt=(XX)-1Xt+(XX)-1Xt(Xt(XX)-1Xt1-Xt(XX)-1Xt)=(11-ht)(XX)-1Xt.

A prova de (A) agora segue de (C): Como , temos ou Então, em que a última igualdade segue de (C).( X ' ( t ) X ( t ) + X ' t X t ) β

XXβ^=Xy,
{ I k + ( X ( t ) X ( t ) ) - 1
(X(t)X(t)+XtXt)β^=X(t)y(t)+Xtyt,
{Euk+(X(t)X(t))-1XtXt}β^=β^(t)+(X(t)X(t))-1Xt(Xtβ^+você^t).
β^=β^(t)+(X(t)X(t))-1Xtvocê^t=β^(t)+(XX)-1Xtvocê^t1-ht,

Agora, observe . Multiplique em (A) por , adicione em ambos os lados e reorganize para obter, com os resíduos resultantes do uso de ( ), ou ht=Xt(XX)-1XtXtytvocê^(t)β^(t)yt-Xtβ^(t)

você^(t)=você^t+(você^t1-ht)ht
você^(t)=você^t(1-ht)+você^tht1-ht=você^t1-ht
Christoph Hanck
fonte
A definição para está ausente na sua resposta. Presumo que esta seja uma matriz com a linha removida. X(t)XXt
Mpgtas
Também mencionando o fato de que também seria útil. XX=t=1TXtXt
Mpgtas
@mpiktas, sim, obrigado pelos ponteiros. Eu editei para levar o primeiro comentário em consideração. Onde exatamente o segundo ajudaria? Ou deixe no seu comentário?
Christoph Hanck
3
Ao iniciar a prova de (C), você escreve . Esse é um bom truque, mas duvido que o leitor casual esteja ciente disso. (X(t)X(t))-1=(XX-XtXt)-1
precisa saber é o seguinte
1
Dois anos depois ... Agradeço ainda mais essa resposta, agora que passei por uma sequência de modelos lineares em nível de pós-graduação. Estou reaprendendo este material com essa nova perspectiva. Você tem referências sugeridas (livros didáticos?) Que passam por derivações como as que você tem nesta resposta em detalhes?
Clarinetist