Limite superior exponencial

12

Suponha que tenhamos variáveis ​​aleatórias IID X1,,Xn com a distribuição Ber(θ) . Vamos observar uma amostra do Xi é da seguinte maneira: vamos Y1,,Yn ser independente Ber(1/2) variáveis aleatórias, suponha que todos os Xi 's e Yi são independentes e definem o tamanho da amostra N=i=1nYi. OsYi's indicam qual dosXi' s são na amostra, e que quer estudar a fracção de sucessos na amostra definido pelo

Z={1Ni=1nXiYiifN>0,0ifN=0.
Paraϵ>0, queremos encontrar um limite superior paraPr(Zθ+ϵ) que decai exponencialmente comn . A desigualdade de Hoeffding não se aplica imediatamente por causa das dependências entre as variáveis.
zen
fonte
1
Seja Zi=1NXiYi. (i) não éZiindependente deZji? (ii) não éZ=Zi? ... Como resultado, não está claro para mim queZnão é 'uma soma de variáveis ​​aleatórias independentes'
Glen_b -Reinstate Monica
Ah, bom argumento. Eu estava pensando em n , em vez de N . Mas você não pode escrever Zi=1nXiYi, e deixá-Z=i=1nZi? Ou seja, soma em todos os casos, seYé 1 ou 0. ... não, isso não funciona. O numerador é o mesmo, mas o denominador é diferente.
Glen_b -Reinstar Monica
Isso fornece menos do que a fração de sucessos na amostra, que é a quantidade de interesse no problema, porque (1/n)i=1nXiYi(1/N)i=1nXiYi , já que Nn .
Zen
1
Sim, foi por isso que terminei com "não, isso não funciona". Existem desigualdades que se aplicam ao caso não independente, como algumas das desigualdades de Bernstein (veja o quarto item), e há várias desigualdades que se aplicam a martingales (embora eu não saiba que elas serão aplicadas aqui).
Glen_b -Reinstala Monica
1
Vou dar uma olhada e também tentar encontrar uma conexão com os resultados de martingales. O limite para U=(1/n)i=1nXiYi é tão fácil ( Pr(Uθ/2+ϵ)exp(2nϵ2) ) que é tentador conectar isso com Z usando algum tipo de condicionamento.
Zen

Respostas:

16

Podemos estabelecer uma conexão com a desigualdade de Hoeffding de uma maneira bastante direta .

Note-se que temos

{Z>θ+ϵ}={iXiYi>(θ+ϵ)iYi}={i(Xiθϵ)Yi>0}.

Defina para que Z i seja iid, E Z i = 0 e P ( Z > θ + ϵ ) = P ( i Z i > n ϵ / 2 )e - n ε 2 / 2Zi=(Xiθϵ)Yi+ϵ/2ZiEZi=0 Através de uma aplicação simples dadesigualdade de Hoeffding(uma vez que o Z i[ - θ - ε / 2 , 1 - θ - ε / 2 ] e assim tomar valores num intervalo de tamanho um).

P(Z>θ+ϵ)=P(iZi>nϵ/2)enϵ2/2,
Zi[θϵ/2,1θϵ/2]

Existe uma rica e fascinante literatura relacionada que se desenvolveu nos últimos anos, em particular sobre tópicos relacionados à teoria da matriz aleatória com várias aplicações práticas. Se você está interessado nesse tipo de coisa, recomendo:

R. Vershynin, Introdução à análise não assintótica de matrizes aleatórias , Capítulo 5 de Sensoriamento Comprimido, Teoria e Aplicações. Editado por Y. Eldar e G. Kutyniok. Cambridge University Press, 2012.

Penso que a exposição é clara e fornece uma maneira muito agradável de se acostumar rapidamente à literatura.

cardeal
fonte
1
Desde a incluem ε / 2 em sua definição, eu tenho a impressão de que Z i[ - θ - ε / 2 , 1 - θ - ε / 2 ] (o limite não muda). Ziϵ/2Zi[θϵ/2,1θϵ/2]
Alecos Papadopoulos
1
Prezado @Zen: Observe que uma contabilidade cuidadosa do caso permitirá que você substitua a desigualdade estrita > por ≥ em todos os lugares sem alterar o limite final. N=0>
cardeal
Dear @cardinal: I've reworded the question because actually Z is a (slightly) biased estimator of θ, since E[Z]=E[I{N=0}Z]+E[I{N>0}Z]=(11/2n)θ.
Zen
6

Details to take care of the N=0 case.

{Zθ+ϵ}=({Zθ+ϵ}{N=0})({Zθ+ϵ}{N>0})=({0θ+ϵ}{N=0})({Zθ+ϵ}{N>0})=({N=0})({Zθ+ϵ}{N>0})={i=1nXiYi(θ+ϵ)i=1nYi}{N>0}{i=1nXiYi(θ+ϵ)i=1nYi}={i=1n(Xiθϵ)Yi0}={i=1n((Xiθϵ)Yi+ϵ/2)nϵ/2}.

For Alecos.

E[i=1nWi]=E[I{i=1nYi=0}i=1nWi]+E[I{i=1nYi>0}i=1nWi]=E[I{i=1nYi>0}i=1nYii=1nYi]=E[I{i=1nYi>0}]=11/2n.
Zen
fonte
5

This answer keeps mutating. The current version does not relate to the discussion I had with @cardinal in the comments (although it was through this discussion that I thankfully realized that the conditioning approach did not appear to lead anywhere).

For this attempt, I will use another part of Hoeffding's original 1963 paper, namely section 5 "Sums of Dependent Random Variables".

Set

WiYii=1nYi,i=1nYi0,i=1nWi=1,n2

while we set Wi=0 if i=1nYi=0.

Then we have the variable

Zn=i=1nWiXi,E(Zn)μn

We are interested in the probability

Pr(Znμn+ϵ),ϵ<1μn

As for many other inequalities, Hoeffding starts his reasoning by noting that

Pr(Znμn+ϵ)=E[1{Znμnϵ0}]
and that

1{Znμnϵ0}exp{h(Znμnϵ)},h>0

For the dependent-variables case, as Hoeffding we use the fact that i=1nWi=1 and invoke Jensen's inequality for the (convex) exponential function, to write

ehZn=exp{h(i=1nWiXi)}i=1nWiehXi

and linking results to arrive at

Pr(Znμn+ϵ)eh(μn+ϵ)E[i=1nWiehXi]

Focusing on our case, since Wi and Xi are independent, expected values can be separated,

Pr(Znμn+ϵ)eh(μn+ϵ)i=1nE(Wi)E(ehXi)

In our case, the Xi are i.i.d Bernoullis with parameter θ, and E[ehXi] is their common moment generating function in h, E[ehXi]=1θ+θeh. So

Pr(Znμn+ϵ)eh(μn+ϵ)(1θ+θeh)i=1nE(Wi)

Minimizing the RHS with respect to h, we get

eh=(1θ)(μn+ϵ)θ(1μnϵ)

Plugging it into the inequality and manipulating we obtain

Pr(Znμn+ϵ)(θμn+ϵ)μn+ϵ(1θ1μnϵ)1μnϵi=1nE(Wi)

while

Pr(Znθ+ϵ)(θθ+ϵ)θ+ϵ(1θ1θϵ)1θϵi=1nE(Wi)

Hoeffding shows that

(θθ+ϵ)θ+ϵ(1θ1θϵ)1θϵe2ϵ2

Courtesy of the OP (thanks, I was getting a bit exhausted...)

i=1nE(Wi)=11/2n

So, finally, the "dependent variables approach" gives us

Pr(Znθ+ϵ)(112n)e2ϵ2BD

Let's compare this to Cardinal's bound, that is based on an "independence" transformation, BI. For our bound to be tighter, we need

BD=(112n)e2ϵ2enϵ2/2=BI

2n12nexp{(4n2)ϵ2}

So for n4 we have BDBI. For n5, pretty quickly BI becomes tighter than BD but for very small ϵ, while even this small "window" quickly converges to zero. For example, for n=12, if ϵ0.008, then BI is tighter. So in all, Cardinal's bound is more useful.

COMMENT
To avoid misleading impressions regarding Hoeffding's original paper, I have to mention that Hoeffding examines the case of a deterministic convex combination of dependent random variables. Specificaly, his Wi's are numbers, not random variables, while each Xi is a sum of independent random variables, while the dependency may exist between the Xi's. He then considers various "U-statistics" that can be represented in this way.

Alecos Papadopoulos
fonte
Alecos: E[W1]=(11/2n)/n (take a look at the derivation at the end of my answer). Your bound doesn't decay exponentially with n as cardinal's does.
Zen
@Zen Indeed (in fact it increases with sample size, although boundedly), that's why Cardinal's bound is more useful for most sample sizes.
Alecos Papadopoulos