Provas que expõem uma estrutura mais profunda

35

A prova padrão do limite de Chernoff (do livro de algoritmos aleatórios ) usa as funções de desigualdade e geração de momentos de Markov, com um pouco de expansão de Taylor. Nada muito difícil, mas um tanto mecânico.

Mas existem outras provas vinculadas a Chernoff que expõem a estrutura mais profunda que conduz o resultado. Por exemplo, há uma versão teórica da informação que segue o método dos tipos, exemplificada por este artigo de Impagliazzo e Kabanets , bem como por este breve post de Sanjoy Dasgupta . Essas últimas provas são mais "intuitivas", pois fornecem uma generalização do resultado padrão, além de explicar de onde vêm os termos engraçados no expoente (é uma divergência de KL).

Quais são bons exemplos de tais coisas? Para ser mais concreto, aqui estão as regras:

A declaração deve ser razoavelmente conhecida (o tipo de coisa que seria ensinada em algum tipo de aula de pós-graduação)

Deveria haver uma prova "padrão" disponível em livros didáticos ou material de referência padrão ensinado "comumente"

Deveria haver uma prova alternativa que não é tão conhecida, NÃO é comumente ensinada e prova uma afirmação mais geral ou vincula a afirmação a uma estrutura matemática mais profunda.

Vou começar com dois exemplos.

O chernoff ligado
- Prova "manual": desigualdade de markov, funções geradoras de momento, expansão de Taylor (RM)
- Prova incomum e perspicaz: método dos tipos, expoente da cauda envolvendo divergência de KL
O Lema de Schwartz-Zippel
- Prova de "livro didático": caso-base envolvendo polinômio univariado. Indução no número de variáveis
- prova "incomum": argumento geométrico via Dana Moshkovitz (e Per Vognsen )

Um exemplo por resposta, por favor.

ps Não estou implicando necessariamente que a prova incomum deva ser ensinada: uma prova direta geralmente é mais fácil para os alunos. Mas no sentido de que "provas nos ajudam a entender", essas provas alternativas são muito úteis.

big-list proofs Suresh Venkat
fonte

23

Não tenho certeza de que é exatamente isso que você está procurando, pois já vi a prova "incomum" nos livros didáticos, mas: o tempo O (n log n) com o quicksort.

Prova "manual": estabeleça uma relação de recorrência aleatória, prove por indução que ela possui a solução desejada.
Prova "incomum": encontre uma fórmula simples para a probabilidade de comparação de dois elementos (é apenas 2 / (d + 1) em que d é a diferença entre suas classificações na ordem classificada) e use linearidade de expectativa e séries harmônicas para calcular o número esperado de pares que são comparados.

A prova de livro didático exige menos insights criativos, mas a prova incomum introduz uma técnica que é muito útil em outras análises de algoritmos, por exemplo, para algoritmos incrementais aleatórios em geometria computacional.

David Eppstein
fonte

3

Eu acho que isso funciona. é um bom exemplo. você está certo de que a prova "incomum" também está nos livros didáticos, mas ainda não é tão comum.

Suresh Venkat

11

Eu ensino a estudantes de graduação essa prova "incomum" há mais de uma década.

Jeffε

Não sei o que os outros pensam disso; mas Jon Bentley fez uma análise de tempo de execução muito elegante para o tempo de execução esperado de classificação rápida no texto Beautiful Code. Você também pode acessar o vídeo dele sobre o mesmo tópico <a href=" youtube.com/watch?v=aMnn0Jq0J-E"> aqui </ a >. Tenho a certeza que esta é a "análise do livro" de tempo de execução esperado de quicksort

Akash Kumar

19

Vou jogar fora um de complexidade, a prova de que o BPP está em . A prova livro é devido a Lautemann, basta escrever o expressão e mostrar que funciona com um argumento probabilístico simples. A prova incomum: adivinhe uma função difícil ( para adivinhar, para verificar a dureza) e conecte-a ao gerador Nisan-Wigderson. $\Sigma_2^p$ $\exists\forall$ $\exists$ $\forall$

Lance Fortnow
fonte

Além disso, a prova de Lautemann simplifica bastante a prova de Sipser (1983), que é atribuída por Sipser a Gacs.

MS Dousti 19/11/10

11

Existe uma referência para a prova "incomum" ou é folclore?

MS Dousti 19/11/10

2

A prova está no jornal Nisan-Wigderson.

precisa

2

É uma "prova incomum", tudo bem, mas qual é o "novo entendimento" dessa prova? Eu acho que a prova de Lautemann é mais esclarecedora. Estou faltando alguma coisa aqui?

V Vinay

13

Nós todos sabemos para Bernoulli deve se comportar como um Gaussian com desvio padrão , certo? Então, vamos provar isso, relacionando-se diretamente com gaussianos! Tomando um número inteiro, $\sum_i a_iX_i$ $\pm 1$ $X_i$ $\sigma = \|a\|_2$ $t \ge 2$

\begin{array}{rcl} E [{(\sum_{i} a_{i} X_{i})}^{t}] & = & \sum_{i_{1}, \dots, i_{t}} (\prod_{j = 1}^{t} a_{i_{j}}) E [\prod_{j = 1}^{t} X_{i_{j}}] \\ \leq & \sum_{i_{1}, \dots, i_{t}} (\prod_{j = 1}^{t} | a_{i_{j}} |) E [\prod_{j = 1}^{t} X_{i_{j}}] \\ = & \sum_{\begin{matrix} i_{1} < \dots < i_{m} \\ r_{1}, \dots, r_{m} \\ \sum_{j} r_{j} = t \\ \forall j r_{j} > 0 \end{matrix}} (\binom{t}{r_{1}, \dots, r_{m}}) (\prod_{j = 1}^{m} | a_{i_{j}} |^{r_{j}}) (\prod_{j = 1}^{m} E [X_{i_{j}}^{r_{j}}]) \end{array}

$\begin{eqnarray*} \mathbf{E}\left[\left(\sum_i a_iX_i\right)^t\right] &=& \sum_{i_1,\ldots,i_t} \left(\prod_{j=1}^t a_{i_j}\right) \mathbf{E}\left[\prod_{j=1}^t X_{i_j}\right]\\ &\le& \sum_{i_1,\ldots,i_t} \left(\prod_{j=1}^t |a_{i_j}|\right) \mathbf{E}\left[\prod_{j=1}^t X_{i_j}\right]\\ &=& \sum_{\substack{i_1<\ldots< i_m\\ r_1,\ldots,r_m\\ \sum_j r_j = t\\ \forall j\ r_j > 0}} \binom{t}{r_1,\ldots,r_m}\left(\prod_{j=1}^m |a_{i_j}|^{r_j}\right)\left(\prod_{j=1}^m \mathbf{E}[X_{i_j}^{r_j}]\right) \end{eqnarray*}$

Agora, vejamos a soma acima à direita. Em qualquer soma solicitada, ou algum é ímpar, tornando a expectativa , ou todos são pares, tornando-o . Imagine substituir todo o pelo Gaussian . Então estaríamos em um cenário semelhante: odd daria , e todos ainda tornaria o produto pelo menos . Então, o caso gaussiano $r_j$ $0$ $1$ $X_i$ $G_i$ $r_j$ $0$ $r_j$ $1$ termo a termo domina o caso Bernoulli. Portanto,

E [{(\sum_{i} a_{i} X_{i})}^{t}] \leq E [{(\sum_{i} | a_{i} | G_{i})}^{t}]

$\mathbf{E}\left[\left(\sum_i a_iX_i\right)^t\right] \le \mathbf{E}\left[\left(\sum_i |a_i|G_i\right)^t\right]$

Mas, por -estabilidade do Gaussian, é em si um Gaussian com desvio padrão , por isso sabemos seus momentos! Assim, o nosso th momento é delimitada por (Aproximadamente $2$ $\sum_i |a_i| G_i$ $\|a\|_2$ $t$ $\|a\|_2^t \cdot t! / (2^{t/2} \cdot (t/2)!)$ ); isso é conhecido como desigualdade de Khintchine. Então, $\|a\|_2^tt^{t/2}$

Set para um suficientemente grande constante e você começa a cauda Gaussian limite

P r [| \sum_{Eu} {uma}_{Eu} X_{Eu} | > λ] < 2^{O (t)} \cdot λ^{- t} \cdot__uma {__}_{2}^{t} t^{t / 2}

$\mathbf{Pr}\left[\left|\sum_i a_iX_i\right| > \lambda\right] < 2^{O(t)}\cdot \lambda^{-t}\cdot \|a\|_2^t t^{t/2}$

t = λ^{2} / (C \cdot ‖ a ‖_{2}^{2})

$t = \lambda^2 / (C\cdot \|a\|_2^2)$

C

$C$

. Ouvi pela primeira vez essa prova da desigualdade de Khintchine ao conversar com Daniel Kane, mas provavelmente há uma referência mais antiga. Observe a prova também deixa claro qual o nível de independência entre os

você precisa obter vários limites da cauda.

e x p (- Ω (λ^{2} / ‖ a ‖_{2}^{2}))

$\mathrm{exp}(-\Omega(\lambda^2 / \|a\|_2^2))$

X_{i}

$X_i$

Jelani Nelson
fonte

6

$A$ $r_i$ $i$ $A$

\prod_{i} (r_{i}!)^{1 / r_{i}} .

$\prod_i (r_i!)^{1/r_i}.$

Timothy Chow
fonte

Provas que expõem uma estrutura mais profunda

Respostas: