Número esperado de vezes que a média empírica excederá um valor

11

Dada uma sequência de variáveis ​​aleatórias iid, digamos, para , estou tentando limitar o número esperado de vezes que a média empírica excederá um valor, , enquanto continuamos a desenhar amostras, ou seja: Xi[0,1]i=1,2,...,n1ni=1nXic0

T=defj=1nP({1ji=1jXic})

Se assumirmos que para alguns , podemos usar a desigualdade de Hoeffding para chegar ac=a+E[X]a>0

Tj=1ne2ja2=1e2a2ne2a21

O que parece bom (talvez), mas, na verdade, é muito limitado, existem maneiras melhores de limitar esse valor? Espero que possa haver uma maneira, já que os diferentes eventos (para cada ) claramente não são independentes, não tenho conhecimento de nenhuma maneira de explorar essa dependência. Além disso, seria bom remover a restrição de que é maior que a média.cjc

edit : A restrição de ser maior que a média pode ser removida se usarmos a desigualdade de Markov da seguinte maneira:c

Tj=1n1jE[X]c=E[X]Hnc
que é mais geral, mas muito pior que o limite acima, embora seja claro que deve divergir sempre que . c E [ X ]TcE[X]
fairidox
fonte
Sua definição de não corresponde à sua descrição. Se os " " foram removidos, seria o número esperado de excedências de , mas, como está escrito, é uma combinação linear dos tempos . Não é manifestamente uma expectativa, porque as probabilidades não são mutuamente exclusivas. Por exemplo, quando , . j × c c 0 T = n ( n + 1 ) / 2Tj×cc0T=n(n+1)/2
whuber
@ Whuber oh, certo, bom argumento obrigado, eu consertei acima.
fairidox
Percebo que você mudou seu limite superior. Agora parece ser negativo ;-).
whuber
O " " no exponencial não deve ser quadrado? - Ok, simplifica com o domínio [0,1]j
Alecos Papadopoulos

Respostas:

1

Essa é uma abordagem feita à mão, e eu realmente aprecio alguns comentários sobre ela (e as críticas são geralmente as mais úteis). Se bem entendi, o OP calcula as médias da amostra , onde cada amostra contém a amostra anterior +1 da observação de um novo rv Denote a distribuição da média de cada amostra. Então nós podemos escrever Fjx¯jFj

T=defj=1n(1Fj(c))=nj=1nFj(c)

Considere-se um tamanho da amostra , após o que a distribuição da média da amostra é quase normal, denotar que . Então nós podemos escreverLmG^

T=nj=1mFj(c)j=m+1nG^j(c)<nj=m+1nG^j(c)

Resolvendo obtemos onde é o padrão normal cdf, é o desvio padrão do processo iid e é sua média. Inserindo no limite e reorganizando, obtemos L j(c)=1-Φ(G^j(c)

G^j(c)=1Φ(jσ(μc))
Φσμ

T<m+j=m+1nΦ(jσ(a))

Observe que esse limite depende também da variação do processo. Este é um limite melhor do que o apresentado na pergunta? Isso dependerá crucialmente de quão "rapidamente" a distribuição da média da amostra se torna "quase normal". Para dar um exemplo numérico, assuma que . Suponha também que as variáveis ​​aleatórias sejam uniformes em . Então e . Considere um desvio de 10% da média, ou seja, defina . então: já para o limite que proponho (que é significativo para ) fica mais apertado. Para o limite de Hoeffding ém=30[0,1]σ=112μ=12a=0.05n=34n>30n=10078.5enquanto o limite que proponho é . O Hoeffding ligado converge para enquanto o ligado propomos a Se aumentar a discrepância entre os dois limites reduz mas permanece visível: para um desvio de 20%, , o Hoeffding ligado converge a , enquanto o O limite que proponho converge para (ou seja, a soma dos cdfs normais contribui muito pouco para o limite geral). De um modo mais geral, notamos que para o limite de Hoeffding converge para36.2199.538.5aa=0.149.530.5
n

Hb1e2a21
enquanto meu limite para
Abm

Como para valores pequenos de (que é bastante o caso de interesse) se torna um número grande, ainda existe o caso de superá-lo com força, mesmo que a amostra seja tal que a distribuição da média da amostra converja lentamente para a distribuição normal.aHbAb

Alecos Papadopoulos
fonte
" (ou seja, não mais do que o limite de tamanho amostral assumido, é necessário obter a aproximação normal na distribuição da média da amostra) " do que você está falando aqui?
Glen_b -Reinstala Monica 5/09
Nada importante. Como escrevi algumas linhas acima, uma regra prática para que a distribuição da média da amostra seja "muito" como o normal é que precisamos de pelo menos um tamanho de amostra 30. Portanto, para o tamanho da amostra 100 e um desvio de 20% Nesse caso, meu limite é ou seja, - em outras palavras, parte do limite contribui muito pouco. 30.5m+0.5j=m+1nΦ(jσ(a))
Alecos Papadopoulos
A menos que você possa declarar as circunstâncias em que se encontra , evite chamar essa coisa de regra geral em qualquer sentido geral. O número 30 é completamente arbitrário (geralmente muito fraco ou muito forte), e esse número 30 também aparece no seu caso, acredito que seja uma simples coincidência.
Glen_b -Reinstala Monica 5/09
1
@Glen_b "30" não foi nem uma coincidência - eu apenas a usei para fornecer um exemplo numérico. Não tenho objeções ao assunto, não gosto de "regras de ouro" (especialmente quando são duvidosas). Fiz algumas alterações na minha resposta. Obrigado pela contribuição.
Alecos Papadopoulos
@Glen_b Obrigado pela memória possivelmente não estacionária (ou seja, longa)!
Alecos Papadopoulos