Chernoff reverso ligado

31

Existe um limite reverso de Chernoff que limita que a probabilidade de cauda seja pelo menos tanta.

ou seja, se são variáveis aleatórias binomiais independentes e . Então podemos provar para alguma função . $X_1,X_2,\ldots,X_n$ $\mu=\mathbb{E}[\sum_{i=1}^n X_i]$ $Pr[\sum_{i=1}^n X_i\geq (1+\delta)\mu]\geq f(\mu,\delta,n)$ $f$

pr.probability chernoff-bound Ashwinkumar BV
fonte

1

Seu exemplo está pedindo demais: com , um limite Chernoff padrão mostra que e

estão no máximo

para alguns

.

p = n^{- 2 / 3}

$p=n^{-2/3}$

Pr [| T \cap S_{1} | \geq \sqrt{1.1} n^{1 / 3}]

$\Pr[|T\cap S_1| \geq \sqrt{1.1}n^{1/3}]$

Pr [| T \cap S_{2} | \sqrt{1.1} \leq n^{1 / 3}]

$\Pr[|T\cap S_2|\sqrt{1.1}\leq n^{1/3}]$

\exp (- c n^{1 / 3})

$\exp(-cn^{1/3})$

c

$c$

Colin McQuillan

Você está certo, fiquei confuso sobre qual termo em chernoff bound tem o quadrado. Mudei a questão para refletir um limite mais fraco. Eu não acho que isso me ajudará no meu aplicativo atual, mas pode ser interessante por outros motivos.

Ashwinkumar BV 25/11/12

28

Aqui está uma prova explícita de que um limite de Chernoff padrão é restrito a fatores constantes no expoente para uma faixa específica dos parâmetros. (Em particular, sempre que as variáveis forem 0 ou 1, e 1 com probabilidade 1/2 ou menos e $\epsilon\in(0,1/2)$ , e o limite superior de Chernoff for menor que uma constante.)

Se você encontrar algum erro, entre em contato.

Lema 1. (tensão do limite de Chernoff) Seja $X$ a média de $k$ variáveis independentes, 0/1 aleatórias (rv). Para qualquer $\epsilon\in(0,1/2]$ e $p\in(0,1/2]$ , assumindo $\epsilon^2 p k \ge 3$ ,

(i) Se cada rv é 1 com probabilidade no máximo $p$ , então

Pr [X \leq (1 - ϵ) p] \geq \exp (- 9 ϵ^{2} p k) .

$\displaystyle \Pr[X\le (1-\epsilon)p] ~\ge~ \exp\big({-9\epsilon^2 pk}\big).$

(ii) Se cada rv for 1 com probabilidade pelo menos $p$ , então

Pr [X \geq (1 + ϵ) p] \geq \exp (- 9 ϵ^{2} p k) .

$\displaystyle \Pr[X\ge (1+\epsilon)p] ~\ge~ \exp\big({-9\epsilon^2 pk}\big).$

Prova. Usamos a seguinte observação:

Reivindicação 1. Se , $1\le \ell \le k-1$ $\displaystyle {k \choose \ell} ~\ge~ \frac{1}{e\sqrt{2\pi\ell}} \Big(\frac{k}{\ell}\Big)^{\ell} \Big(\frac{k}{k-\ell}\Big)^{k-\ell}$

Prova de reivindicação 1. Pela aproximação de Stirling, onde $i!=\sqrt{2\pi i}(i/e)^ie^\lambda$ $\lambda\in[1/(12i+1),1/12i].$

Portanto, , que é , é pelo menos QED $k\choose \ell$ $\frac{k!}{\ell! (k-\ell)!}$

\frac{\sqrt{2 π k} (\frac{k}{e})^{k}}{\sqrt{2 π ℓ} (\frac{ℓ}{e})^{ℓ} \sqrt{2 π (k - ℓ)} (\frac{k - ℓ}{e})^{k - ℓ}} \exp (\frac{1}{12 k + 1} - \frac{1}{12 ℓ} - \frac{1}{12 (k - ℓ)})

$\frac{\sqrt{2\pi k}\,(\frac{k}{e})^k} { \sqrt{2\pi \ell}\,(\frac{\ell}{e})^\ell ~~\sqrt{2\pi (k-\ell)}\,(\frac{k-\ell}{e})^{k-\ell} } \exp\Big(\frac{1}{12k+1} - \frac{1}{12\ell} - \frac{1}{12(k-\ell)}\Big)$

\geq \frac{1}{\sqrt{2 π ℓ}} (\frac{k}{ℓ})^{ℓ} (\frac{k}{k - ℓ})^{k - ℓ} e^{- 1} .

$~\ge~ \frac{1}{\sqrt{2\pi\ell}} \Big(\frac{k}{\ell}\Big)^{\ell} \Big(\frac{k}{k-\ell}\Big)^{k-\ell}e^{-1}.$

Prova do Lema 1 Parte (i). Sem perda de generalidade, assuma que cada variável aleatória 0/1 na soma é 1 com probabilidade exatamente . Nota é igual à soma e . $X$ $p$ $\Pr[X\le (1-\epsilon)p]$ $\sum_{i = 0}^{\lfloor(1-\epsilon)pk\rfloor} \Pr[X=i/k]$ $\Pr[X=i/k] = {k \choose i} p^i (1-p)^{k-i}$

Corrija . Os termos na soma estão aumentando; portanto, os termos com o índice têm valor pelo menos ; portanto, sua soma tem valor total pelo menos . Para concluir a prova, mostramos que $\ell = \lfloor(1-2\epsilon)pk\rfloor+1$ $i\ge\ell$ $\Pr[X=\ell/k]$ $(\epsilon pk - 2) \Pr[X=\ell/k]$

(ϵ p k - 2) Pr [X = ℓ / k] \geq \exp (- 9 ϵ^{2} p k) .

$(\epsilon pk - 2) \Pr[X=\ell/k] ~\ge~ \exp({-9\epsilon^2 pk}).$

As suposições e fornecem ; portanto, o lado esquerdo acima é pelo menos . Usando a Reivindicação 1, para vincular , isso é pelo menos onde e $\epsilon^2pk\ge 3$ $\epsilon\le 1/2$ $\epsilon pk \ge 6$ $\frac{2}{3}\epsilon pk\, {k \choose \ell} p^\ell(1-p)^{k-\ell}$ $k\choose \ell$ $A\, B$ $A = \frac{2}{3e}\epsilon p k/ \sqrt{2\pi \ell}$ $B= \big(\frac{k}{\ell}\big)^\ell \big(\frac{k}{k-\ell}\big)^{k-\ell} p^\ell (1-p)^{k-\ell}.$

Para finalizar, mostramos e . $A\ge \exp(-\epsilon^2pk)$ $B \ge \exp(-8\epsilon^2 pk)$

Reivindicação 2. $A \ge \exp({-\epsilon^2 pk})$

Prova da reivindicação 2. As suposições e implicam (i) . $\epsilon^2 pk \ge 3$ $\epsilon\le 1/2$ $pk\ge 12$

Por definição, . Por (i), . Assim, (ii) . $\ell \le pk + 1$ $p k \ge 12$ $\ell \,\le\, 1.1 pk$

Substituir o lado direito de (ii) para em fornece (iii) . $\ell$ $A$ $A \ge \frac{2}{3e} \epsilon \sqrt{p k / 2.2\pi}$

A suposição, , implica , que com (iii) fornece (iv) . $\epsilon^2 pk \ge 3$ $\epsilon\sqrt{ pk} \ge \sqrt 3$ $A \ge \frac{2}{3e}\sqrt{3/2.2\pi} \ge 0.1$

A partir de , segue-se que (v) . $\epsilon^2pk \ge 3$ $\exp(-\epsilon^2pk) \le \exp(-3) \le 0.04$

(iv) e (v) juntos dão a reivindicação. QED

Reivindicação 3. . $B\ge \exp({-8\epsilon^2 pk})$

Prova de reivindicação 3. Corrija modo que . A escolha de implica , portanto a reivindicação permanecerá enquanto . Levar cada lado dessa última desigualdade ao poder e simplificar, é equivalente a Substituindo e simplificando, é equivalente a $\delta$ $\ell=(1-\delta)pk$
$\ell$ $\delta\le 2\epsilon$ $B \ge \exp(-2\delta^2pk)$ $-1/\ell$

\frac{ℓ}{p k} (\frac{k - ℓ}{(1 - p) k})^{k / ℓ - 1} \leq \exp (\frac{2 δ^{2} p k}{ℓ}) .

$\frac{\ell}{p k} \Big(\frac{k-\ell}{(1-p) k}\Big)^{k/\ell-1} ~\le~ \exp\Big(\frac{2\delta^2 pk}{\ell}\Big).$

ℓ = (1 - δ) p k

$\ell= (1-\delta)pk$

(1 - δ) (1 + \frac{δ p}{1 - p})^{\frac{1}{(1 - δ) p} - 1} \leq \exp (\frac{2 δ^{2}}{1 - δ}) .

$(1-\delta) \Big(1+\frac{\delta p}{1-p}\Big)^{\displaystyle \frac{1}{(1-\delta)p}-1} ~\le~ \exp\Big(\frac{2\delta^2}{1-\delta}\Big).$ Tomando o logaritmo de ambos os lados e usando duas vezes, ele permanecerá contanto que O lado esquerdo acima simplifica para , que é menor que porque . QED

\ln (1 + z) \leq z

$\ln(1+z)\le z$

- δ + \frac{δ p}{1 - p} (\frac{1}{(1 - δ) p} - 1) \leq \frac{2 δ^{2}}{1 - δ} .

$-\delta\, +\,\frac{\delta p}{1-p}\Big(\frac{1}{(1-\delta)p}-1\Big) ~\le~ \frac{2\delta^2}{1-\delta}.$

δ^{2} / (1 - p) (1 - δ)

$\delta^2/\,(1-p)(1-\delta)$

2 δ^{2} / (1 - δ)

$2\delta^2/(1-\delta)$

p \leq 1 / 2

$p\le 1/2$

As reivindicações 2 e 3 implicam . Isso implica parte (i) do lema. $A B \ge \exp({-\epsilon^2pk})\exp({- 8\epsilon^2pk})$

Prova do Lema 1 Parte (ii). Sem perda de generalidade, assuma que cada variável aleatória é com probabilidade exatamente . $1$ $p$

Nota . Corrija . $\Pr[X\ge (1+\epsilon)p] = \sum_{i = \lceil(1-\epsilon)pk\rceil}^n \Pr[X=i/k]$ $\hat\ell = \lceil (1+2\epsilon)pk \rceil - 1$

Os últimos termos na soma total pelo menos , que é pelo menos . (A prova disso é a mesma que para (i), exceto com substituído por e substituído por modo que .) QED $\epsilon pk$ $(\epsilon pk-2)\Pr[X=\hat\ell/k]$ $\exp({-9\epsilon^2 pk})$ $\ell$ $\hat\ell$ $\delta$ $-\hat\delta$ $\hat\ell = (1+\hat\delta)pk$

Neal Young
fonte

Vários [erros de processamento matemático] s - alguma chance de corrigi-los?

Aryeh 12/01

Essas expressões matemáticas costumavam exibir muito bem. Por alguma razão, o comando \ choose não está funcionando no mathjax. Nem é \ binom. Por exemplo, $ a \ escolha b $ fornece . Presumivelmente, esse é um erro na configuração do mathjax. Esperamos que esteja consertado em breve. Enquanto isso, veja o Lema 5.2 no apêndice de arxiv.org/pdf/cs/0205046v2.pdf ou cs.ucr.edu/~neal/Klein15Number .

(\binom{a}{b})

$a \choose b$

Neal Young

22

O teorema de Berry-Esseen pode fornecer limites mais baixos à probabilidade da cauda, desde que sejam maiores que . $n^{-1/2}$

Outra ferramenta que você pode usar é a desigualdade de Paley-Zygmund . Isso implica que, para qualquer número inteiro par e qualquer variável aleatória com valor real , $k$ $X$

Pr [| X | >= \frac{1}{2} (E [X^{k}])^{1 / k}] \geq \frac{E [X^{k}]^{2}}{4 E [X^{2 k}]}

$\Pr[|X| >= \frac{1}{2}(\mathbb{E}[X^k])^{1/k}] \geq \frac{\mathbb{E}[X^k]^2}{4\mathbb{E}[X^{2k}]}$

Juntamente com o teorema multinomial, para uma soma de variáveis aleatórias rademacher, Paley-Zygmund pode obter limites inferiores bastante fortes. Também funciona com variáveis aleatórias de independência limitada. Por exemplo, você obtém facilmente que a soma das variáveis aleatórias independentes 4 é com probabilidade constante. $X$ $n$ $n$ $\pm 1$ $\Omega(\sqrt{n})$

Sasho Nikolov
fonte

14

Se você realmente concorda com as somas delimitadoras dos ensaios de Bernoulli (e não, digamos, com variáveis aleatórias delimitadas), o que se segue é bastante rígido.

Desigualdade de lamas *. Seja iid extraído de um Bernoulli rv com , e seja dado o inteiro . Se (a) e , ou (b) , então que é o cdf de um padrão normal. $\{X_i\}_{i=1}^n$ $\mathbb{E}(X_1) = p$ $k\leq n$ $p\leq 1/4$ $np \leq k$ $np \leq k \leq n(1-p)$
$Pr [\sum_{i} X_{i} \geq k] \geq 1 - Φ (\frac{k - n p}{\sqrt{n p (1 - p)}}),$ $\text{Pr}\big[\sum_i X_i \geq k\big] \geq 1 - \Phi\left(\frac{k-np}{\sqrt{np(1-p)}}\right),$ $\Phi$

(Tratando o argumento para como transformando o padrão normal, isso concorda exatamente com o que o CLT diz a você; de fato, ele nos diz que os binômios que satisfazem as condições do teorema dominam seus gaussianos correspondentes nas caudas superiores.) $\Phi$

A partir daqui, você pode usar limites em para obter algo melhor. Por exemplo, no primeiro livro de Feller, na seção Gaussians, é mostrado para cada que que é a densidade de um normal padrão. Existem limites semelhantes no artigo da Wikipedia para "função Q" também. $\Phi$ $z>0$

\frac{z}{1 + z^{2}} φ (z) < 1 - Φ (z) < \frac{1}{z} φ (z),

$\frac{z}{1+z^2}\varphi(z) < 1-\Phi(z) < \frac{1}{z}\varphi(z),$

φ

$\varphi$

Fora isso, e o que outras pessoas disseram, você também pode tentar usar o Binomial diretamente, talvez com alguns Stirling.

(*) Algumas afirmações mais recentes da desigualdade de Slud deixam de fora algumas dessas condições; Eu reproduzi o do jornal de Slud.

matus
fonte

7

O Teorema de Moivre-Laplace mostra que variáveis como, depois de ser adequadamente normalizado e sob certas condições, convergirá na distribuição para uma distribuição normal. Isso é suficiente se você deseja limites inferiores constantes. $|T\cap S_1|$

Para limites inferiores como , você precisa de uma ferramenta um pouco mais fina. Aqui está uma referência que eu conheço (mas apenas por acidente - nunca tive a oportunidade de usar essa desigualdade). Alguns limites inferiores explícitos das probabilidades caudais das distribuições binomiais são dados no Teorema 1.5 do livro Gráficos Aleatórios de Béla Bollobás, Cambridge, 2ª edição, onde referências adicionais são dadas a Uma introdução à probabilidade e suas aplicações por Feller e Foundations of Probability por Rényi. $n^{-c}$

Colin McQuillan
fonte

4

O Teorema Generalizado de Littlewood-Offord não é exatamente o que você deseja, mas fornece o que eu considero um "Chernoff reverso", mostrando que é improvável que a soma de variáveis aleatórias caia dentro de um pequeno intervalo em torno de qualquer valor específico (incluindo a expectativa). Talvez seja útil.

Formalmente, o teorema é o seguinte.

Teorema generalizado de Littlewood-Offord : Seja e sejam números reais tais que para deixe serem variáveis aleatórias independentes que possuem valores zero e um. Para , suponha que para todos os . Então, para qualquer , Onde é uma constante, dependendo apenas da . $a_1, \ldots, a_n$ $s>0$ $|a_i| \ge s$ $1 \le i \le n$ $X_1, \ldots, X_n$ $0 < p \le \frac{1}{2}$ $p \le \Pr[X_i = 0] \le 1-p$ $1 \le i \le n$ $r \in \mathcal{R}$

Pr [r \leq \sum_{i = 1}^{n} a_{i} X_{i} < r + s] \leq \frac{c_{p}}{\sqrt{n}}

$\Pr \left[ r \le \sum_{i=1}^{n}{a_iX_i} < r+s\right] \le \frac{c_p}{\sqrt{n}}$

c_{p}

$c_p$

p

$p$

Lev Reyzin
fonte

3

Pode ser útil que outras pessoas saibam que esse tipo de resultado também é conhecido como "desigualdade de bolas pequenas" e Nguyen e Vu têm uma ótima pesquisa pessoal.math.osu.edu/nguyen.1261/cikk/LO-survey.pdf . Minha perspectiva aqui difere um pouco da sua. Penso em um "Chernoff reverso" vinculado como fornecendo uma estimativa mais baixa da massa de probabilidade da bola pequena em torno de 0. Penso em uma desigualdade de bola pequena dizendo qualitativamente que a probabilidade de bola pequena é maximizada pela bola em 0. Os limites inversos de Chernoff são geralmente mais fáceis de provar do que as desigualdades com pequenas bolas.

Sasho Nikolov

3

O expoente no limite padrão de Chernoff, como declarado na Wikipedia, é pequeno para variáveis aleatórias com valor de 1/1. Deixe que e deixar ser uma sequência de variáveis aleatórias independentes de tal modo que para cada , e . Então, para cada , $0<p<1$ $X_1,X_2,\ldots$ $i$ $\Pr[X_i=1]=p$ $\Pr[X_i=0]=1-p$ $\varepsilon>0$

\frac{2^{- D (p + ε ‖ p) \cdot n}}{n + 1} \leq Pr [\sum_{i = 1}^{n} X_{i} \geq (p + ε) n] \leq 2^{- D (p + ε ‖ p) \cdot n} .

$\begin{equation} \frac{2^{-D(p+\varepsilon\| p)\cdot n}}{n+1}\leq \Pr\left[ \sum_{i=1}^n X_i \geq (p+\varepsilon)n\right]\leq 2^{-D(p+\varepsilon\| p)\cdot n}. \end{equation}$

Aqui, , que é a divergência de Kullback-Leibler entre Bernoulli variáveis com os parâmetros e . $D(x\| y)=x \log_2(x/y)+(1-x)\log_2((1-x)/(1-y))$ $x$ $y$

Como mencionado, o limite superior da desigualdade acima é comprovado na Wikipedia ( https://en.wikipedia.org/wiki/Chernoff_bound ) sob o nome "Teorema de Chernoff-Hoeffding, forma aditiva". O limite inferior pode ser comprovado usando, por exemplo, o "método dos tipos". Veja Lema II.2 em [1]. Além disso, isso é abordado no livro clássico sobre teoria da informação por Cover e Thomas.

[1] Imre Csiszár: O método dos tipos. Transações IEEE sobre Teoria da Informação (1998). http://dx.doi.org/10.1109/18.720546

JWM
fonte

Também vale a pena notar que e, no caso comum de é . Isso mostra que quando o limite típico é nítido. (E quando para ).

D (p + δ p ‖ p) = \frac{p}{2 - 2 p} δ^{2} + O (δ^{3})

$D(p+\delta p\|p)=\frac{p}{2-2p}\delta^2+O(\delta^3)$

p = 1 / 2

$p=1/2$

\frac{1}{2} δ^{2} + O (δ^{4})

$\frac{1}{2}\delta^2+O(\delta^4)$

δ = O (n^{- 1 / 3})

$\delta=O(n^{-1/3})$

e^{- C δ^{2}}

$e^{-C \delta^2}$

δ = O (n^{- 1 / 4})

$\delta=O(n^{-1/4})$

p = 1 / 2

$p=1/2$

Thomas Ahle

Chernoff reverso ligado

Respostas: