Compreensão da prova de um lema usado na desigualdade de Hoeffding

11

Estou estudando as anotações de Larry Wasserman sobre estatística, que usam Casella e Berger como seu texto principal. Estou trabalhando nas anotações da aula, conjunto 2, e fiquei preso na derivação do lema usado na desigualdade de Hoeffding (pp.2-3). Estou reproduzindo a prova nas notas abaixo e depois da prova vou apontar onde estou preso.


Lema

Suponha que E(X)=0 e que aXb . Em seguida, E(etX)et2(ba)2/8 .

Prova

Como aXb , podemos escrever X como uma combinação convexa de a e b , nomeadamente X=αb+(1α)a onde α=Xaba . Pela convexidade da funçãoyetytemos

etXαetb+(1α)eta=Xabaetb+bXbaeta

Tome expectativas de ambos os lados e use o fato E(X)=0 para obter

E(etX)abaetb+bbaeta=eg(u)

onde u=t(ba) , g(u)=γu+log(1γ+γeu) e γ=a/(ba) . Observe que . Tambémgg(0)=g(0)=0para todosu>0.g(u)1/4u>0

Pelo teorema de Taylor, existe um tal que g ( u ) = g ( 0 ) + u gε(0,u)g(u)=g(0)+ug(0)+u22g(ε)=u22g(ε)u28=t2(ba)28

Logo, .E(etX)eg(u)et2(ba)28


Eu poderia seguir a prova até

mas eu sou incapaz de descobrir como derivaru,g(u),γ.E(etX)abaetb+bbaeta=eg(u)u,g(u),γ

Anand
fonte
3
É interessante que o máximo valor de é σ 2 max = ( b - a ) 2 / 4 e, assim, o resultado é efectivamente E [ e t X ] e σ 2 max t 2 / 2 , que parece muito familiar a surgir por pura coincidência. Suspeito que possa haver outra maneira, possivelmente mais fácil, de obter o resultado por meio de um argumento probabilístico. var(X)σmax2=(ba)2/4
E[etX]eσmax2t2/2
Dilip Sarwate
@DilipSarwate Meu entendimento é que a variação máxima ocorre para uma variável aleatória uniforme . A variância de X é V a r ( X ) = ( b - a ) 2XU(a,b)X . Você pode explicar como conseguiu(b-a)2Var(X)=(ba)212 ? (ba)24
Anand
Concentrando a massa nos pontos finais ...
Elvis
@DilipSarwate Adicionei alguns comentários na prova, que podem esclarecer um pouco porque o pior caso é a variação máxima.
Elvis
1
@DilipSarwate - Veja o lema 1 e o exercício 1 aqui: terrytao.wordpress.com/2010/01/03/… . Parece que há uma derivação mais simples que depende da desigualdade de Jensen e da expansão de taylor. No entanto, os detalhes disso não são claros para mim. Talvez alguém possa entender isso. (derivação de (9) a (10) e exercício 1)
Leo

Respostas:

17

Não sei se entendi sua pergunta corretamente. Vou tentar responder: tente escrever em função deu=t(b-a): isso é natural, pois você deseja um limite eme u 2

abaetb+bbaeta
u=t(ba) .eu28

Ajudado pela experiência, você saberá que é melhor optar por escrevê-lo no formato . Então e g ( u ) = - aeg(u) leva a g ( u )

eg(u)=abaetb+bbaeta
comγ=- a
g(u)=log(abaetb+bbaeta)=log(eta(abaet(ba)+bba))=ta+log(γeu+(1γ))=γu+log(γeu+(1γ)),
.γ=aba

Esse é o tipo de coisa que você estava pedindo?

Edit: alguns comentários sobre a prova

  1. O primeiro truque merece ser analisado com cuidado: se é uma função convexa e a X b é uma variável aleatória centralizada, então E ( ϕ ( X ) ) - aϕaXb
    E(ϕ(X))abaϕ(b)+bbaϕ(a)=E(ϕ(X0)),
    X0
    P(X0=a)=bbaP(X0=b)=aba.
    X0[a,b]
    Var(X)=E(X2)E(X02)=ba2ab2ba=ab.
    (ba)(ba)24(ba)2+4ab0a=b
  2. u=t(ba)XE(etX)s(t)ba=1s(t(ba))s(t)

    E(ϕ(X))E(ϕ(tX))E(ϕ(tX0))uγu=u0=t0(b0a0)γ=γ0=a0b0a0t,a,bt=t0αa=αa0b=αa0

    abaϕ(tb)+bbaϕ(ta)=a0b0a0ϕ(tb0)+b0b0a0ϕ(a0).
    u
  3. guγ

    γ=aba1γ=bbaat=γubt=(1γ)u

    E(ϕ(tX))abaϕ(tb)+bbaϕ(ta)=γϕ((1γ)u)+(1γ)ϕ(γu)


    ϕ=exp

Espero ter esclarecido um pouco.

Elvis
fonte
isso é exatamente o que eu estava procurando. Muito obrigado.
Anand
1
@ E eu sei que é difícil seguir os conselhos, mas acho que você não deve começar se concentrando em detalhes técnicos, mas sim tentar entender por que esse limite pode existir ... então a prova deve parecer mais fácil. Tentei mostrar o porquê na segunda parte, adicionada esta manhã (você precisa dormir em uma pergunta como esta - pelo menos eu preciso). Eu acho terrível como esse tipo de intuição não apareça na maioria dos livros didáticos ... mesmo se você receber a parte técnica, desde que não tenha as idéias, tudo parece mágico. Obrigado e CrossV por me dar a oportunidade de pensar nisso em detalhes!
Elvis
1
E[etX]eE[t2X2/2]=e(t2/2)E[X2]=e(t2/2)var(X)et2σmax2/2?
precisa saber é o seguinte
@ Elvis Obrigado pelo conselho e por reservar um tempo para escrever a parte intuitiva. Eu preciso gastar algum tempo para entender isso!
Anand
1
@ Elvis Levando em conta a intuição, quero esclarecer meu entendimento. Para obter limites mais nítidos, é preciso momentos mais altos. Markov usa o primeiro momento, Chebyshev o segundo momento e Hoeffding usa mgf. Isso está correto? Se alguém puder expandir e esclarecer esta parte, seria ótimo.
Anand