Abandono na regressão linear

9

Eu tenho lido o artigo original sobre desistência, ( https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf ) e na seção de regressão linear, afirma-se que:

ERBernoulli(p)[y (RX)w2]

reduz para:

ypXw2+p(1p)Γw2

Estou tendo problemas para entender como eles chegaram a esse resultado. Alguém pode ajudar?

doug
fonte
O que é Γ aqui?
O Laconic
3
I escreveu um ensaio longform sobre este tema: madrury.github.io/jekyll/update/statistics/2017/08/12/...
Matthew Drury

Respostas:

7

Primeiro, deixe por conveniência. Expandindo a perda, temos Tomando a expectativa em , temos O valor esperado de uma matriz é a matriz dos valores esperados em células, então então Para o último termo, portanto SeRX=M

yMw2=yTy2wTMTy+wTMTMw.
R
ER(yMw2)=yTy2wT(EM)Ty+wTE(MTM)w.
(ERM)ij=ER((RX)ij)=XijER(Rij)=pXij
2wT(EM)Ty=2pwTXTy.
(MTM)ij=k=1NMkiMkj=k=1NRkiRkjXkiXkj
(ERMTM)ij=k=1NER(RkiRkj)XkiXkj.
ijentão eles são independentes, de modo que os elementos fora da diagonal resultam em . Para os elementos diagonais, temos p2(XTX)ij
k=1NER(Rki2)Xki2=p(XTX)ii.

Terminando isso, podemos observar que e encontramos Em , mostrei que todo elemento fora da diagonal é zero, então o resultado é O documento define então que significa que estão feitos.

ypXw2=yTy2pwTXTy+p2wTXTXw
ERyMw2=yTy2pwTXTy+wTER(MTM)w=ypXw2p2wTXTXw+wTER(MTM)w=ypXw2+wT(ER(MTM)p2XTX)w.
ER(MTM)p2XTX
ER(MTM)p2XTX=p(1p)diag(XTX).
Γ=diag(XTX)1/2Γw2=wTdiag(XTX)w

jld
fonte