Complexidade de comunicação da aproximação do tamanho da interseção do conjunto

Considere o problema de interseção de conjuntos: Alice e Bob recebem um subconjunto de e gostariam de saber se seus conjuntos se cruzam. Esse é um problema canônico de complexidade da comunicação, e é sabido que protocolos aleatórios para esse problema requerem bits de comunicação ( consulte a pesquisa aqui ). No caso em que os conjuntos são do tamanho para , é sabido que protocolos aleatórios requerem bits ( veja aqui ). $\left\{ 1,\ldots, n\right\}$ $\Theta(n)$ $k$ $k \ll n$ $\Theta(k)$

Considere agora a variante em que Alice e Bob querem saber o tamanho da interseção de seus conjuntos. Claramente, computar o tamanho exato reduz-se ao problema padrão de interseção de conjuntos, e isso vale mesmo se eles quiserem apenas calcular uma aproximação multiplicativa do tamanho. No entanto, o que acontece se eles querem calcular uma aproximação aditiva do tamanho da interseção? Existe algum limite inferior ou superior conhecido sobre esse problema?

Estou particularmente interessado nesta questão na configuração de pequenos conjuntos, ou seja, no caso em que os conjuntos são do tamanho . $k \ll n$

reference-request communication-complexity Ou Meir
fonte

A aproximação c aproximada da intersecção de dois conjuntos de n (2 * c) bits é pelo menos tão difícil quanto calcular a interseção de dois conjuntos de n bits; reduzimos do último para o anterior copiando cada bit 2c vezes e arredondando o tamanho da interseção para o múltiplo mais próximo de c.

Daniello 26/06

Suponho que a seguinte redução, da disjunção do conjunto clássico para a aproximação aditiva lhe daria um limite inferior. Suponha que exista um protocolo que atinja a aproximação . Eles reproduzem cada um dos bits originais para bits. Portanto, se não houver interseção, a saída será no máximo e, se houver uma interseção, será no mínimo . Isso fornece um limite inferior de .

α

$\alpha$

α = f (n)

$\alpha=f(n)$

n

$n$

3 f (n)

$3f(n)$

f (n)

$f(n)$

2 f (n)

$2 f(n)$

Ω (\frac{n}{3 f (n)})

$\Omega(\frac{n}{3f(n)})$

Sajin Koroth

Obrigado! Se você transformar seus comentários em respostas, eu os aceito.

Ou Meir

Dois subconjuntos de de tamanho sempre se cruzam?

{1, \dots, n}

$\{1, \ldots, n\}$

n

$n$

Geoffrey Irving

Respostas:

Vou dar dois limites superiores. Seja e os conjuntos dados a Alice e Bob, respectivamente, e coloque,,. $A$ $B$ $a=|A|$ $b=|B|$ $c=|A\cap B|$

Primeiro, existe um protocolo aleatório que, dado e , calcula com probabilidade uma aproximação de até o erro aditivo , usando bits de comunicação e bits de aleatoriedade. $d>0$ $\epsilon>0$ $\ge1-\epsilon$ $c$ $d$ $O\Bigl(\left(\frac{\min\{a,b\}}d\right)^2\log n\log\epsilon^{-1}\Bigr)$ $O\Bigl(\left(\frac{\min\{a,b\}}d\right)^2\log \min\{a,b\}\log\epsilon^{-1}\Bigr)$

O protocolo é o seguinte:

Se , a parte que o vê encerra o protocolo e gera como a estimativa. Caso contrário, Alice e Bob comunicar e para o outro, e determinar qual é menor. Assumirei abaixo do wlog que . $d\ge\min\{a,b\}$ $0$ $a$ $b$ $a\le b$
Alice desenha amostras aleatórias uniformemente independentes , , e as envia para Bob. $t=\log(2\epsilon^{-1})a^2/(2d^2)$ $a_i\in A$ $i<t$
Bob estima como. $c$ $\frac at|\{i<t:a_i\in B\}|$

O protocolo está correto pelos limites de Chernoff-Hoeffding: se denota a variável aleatória indicadora do evento , então , , são variáveis iid com média . Assim, e da mesma forma para . $X_i$ $a_i\in B$ $X_i$ $i<t$ $p=c/a$

Pr [a \bar{X} \leq c - d] = Pr [\bar{X} \leq p - \frac{d}{a}] \leq \exp (- 2 {(\frac{d}{a})}^{2} t) \leq \frac{ϵ}{2},

$\Pr\left[a\overline X\le c-d\right]=\Pr\left[\overline X\le p-\tfrac da\right]\le\exp\left(-2\left(\tfrac da\right)^2t\right)\le\frac\epsilon2,$

Pr [a \bar{X} \geq c + d]

$\Pr\bigl[a\overline X\ge c+d\bigr]$

Agora, esses limites são um pouco inúteis se: : também existem limites de Chernoff que indicam que nos permitiria conviver com o número de amostras menores por um fator de aproximadamente . O problema é que é a mesma quantidade que queremos aproximar, portanto, não a conhecemos adiante. Isso pode ser remediado fazendo-se primeiro uma estimativa do de . $c\ll a$

\begin{aligned} Pr [\bar{X} \leq p - δ] & \leq \exp (- \frac{δ^{2}}{2 p} t), \\ Pr [\bar{X} \geq p + δ] & \leq \exp (- \frac{δ^{2}}{3 p} t), δ \leq p, \end{aligned}

$\begin{align} \Pr\left[\overline X\le p-\delta\right]&\le\exp\left(-\frac{\delta^2}{2p}t\right),\\ \Pr\left[\overline X\ge p+\delta\right]&\le\exp\left(-\frac{\delta^2}{3p}t\right),\qquad\delta\le p, \end{align}$

t

$t$

p

$p$

p = c / a

$p=c/a$

c

$c$

Portanto, o protocolo aprimorado calcula com probabilidade uma aproximação aditiva de usando bits de comunicação e bits de aleatoriedade e é o seguinte (as constantes não são otimizadas): $\ge1-\epsilon$ $d$ $c$ $O\Bigl(\frac{\min\{a,b\}}d\left(1+\frac cd\right)\log n\log\epsilon^{-1}\Bigr)$ $O\Bigl(\frac{\min\{a,b\}}d\left(1+\frac cd\right)\log \min\{a,b\}\log\epsilon^{-1}\Bigr)$

O mesmo que acima.
Alice desenha amostras aleatórias de e as envia para Bob. $r=10(\log\epsilon^{-1})a/d$ $A$
Bob conta quantas dessas amostras pertencem a e envia esse número, , para Alice. $B$ $s$
Se , o protocolo termina com a saída . $as/r\le d/2$ $0$
Alice desenha amostras aleatórias , envia para Bob. $t=10sa/d$ $a_i\in A$ $i<t$
Bob estima como. $c$ $\frac at|\{i<t:a_i\in B\}|$

Sem entrar em detalhes, os limites de Chernoff citados acima implicam que, com alta probabilidade, o valor de é , caso em que o protocolo não excede o custo declarado e calcula com alta probabilidade uma boa estimativa de por outra aplicação dos limites de Chernoff. $s/r$ $\Theta(c/a)$ $c$

Emil Jeřábek
fonte

Obrigado pela resposta útil! No entanto, acabei de perceber que esqueci de mencionar que estou mais interessado no caso em que os conjuntos são pequenos em comparação com . Existe uma maneira de fazer seu protocolo funcionar nessa configuração? Desculpem a confusão ...

n

$n$

Ou Meir

O que você quer dizer com aproximação aditiva nesse cenário?

Emil Jerabek

Eu estaria interessado em aproximar qualquer termo aditivo que seja significativo, começando de uma constante até linear no tamanho dos conjuntos.

Ou Meir

Mas erro até uma fração constante do tamanho do conjunto é o mesmo que aproximação multiplicativa, não é?

Emil Jerabek

Ah, entendo, você permite uma fração dos tamanhos dos dois conjuntos originais, mesmo que a interseção seja muito menor.

Emil Jerabek

[A resposta de Emil é claramente melhor e mais simples se você estiver interessado nesse tipo de erro, a menos que, por algum motivo, você precise que seu protocolo seja determinístico. Opa.]

Existem protocolos não triviais se você estiver interessado em aproximações aditivas do tipo para pequenas constantes . $\pm \delta n$ $\delta > 0$

Por exemplo, aqui está um:

Alice e Bob interpretam cada conjunto como um gráfico em , concordando com algum mapeamento canônico dos itens possíveis do conjunto às arestas possíveis do gráfico. $\approx \sqrt{n}$ $n$ $n$
Alice e Bob calculam uma partição de de seu gráfico. Eles enviam mutuamente sua partição ( bits) mais a densidade do gráfico entre cada par de conjuntos de partições (por exemplo, bits, se forem relatadas densidades de até bits de precisão numérica). $(k, \varepsilon)$ $\widetilde{O}(\sqrt{n})$ $\widetilde{O}_{\varepsilon}(\sqrt{n})$ $\sqrt{n}$
Alice e Bob agora descartam arestas que, para qualquer uma das duas partições: (a) têm ambos os pontos finais dentro de um dos conjuntos de partições, (b) têm ambos os pontos finais entre um par de conjuntos não regulares ou (c) cruzam um par de define na partição de Alice e na partição de Bob de modo que é extraordinariamente pequeno. Eles jogam fora, no máximo, uma fração constante dos itens, causando erro aditivo, mas pode ser arbitrariamente pequeno por escolha de $(S_1^A, S_2^A)$ $(S_1^B, S_2^B)$ $max {min {| S_{1}^{A} \cap S_{1}^{B} |, | S_{2}^{A} \cap S_{2}^{B} |}, min {| S_{1}^{A} \cap S_{2}^{B} |, | S_{2}^{A} \cap S_{1}^{B} |}}$ $\max\left\{ \min\{\left| S_1^A \cap S_1^B \right|, \left|S_2^A \cap S_2^B\right|\}, \min\{\left|S_1^A \cap S_2^B\right|, \left| S_2^A \cap S_1^B \right|\} \right\}$ $\delta > 0$ $\pm \delta n$ $\delta$ $k, \varepsilon$ . As interseções entre os itens restantes podem ser estimadas de perto por métodos estatísticos padrão, uma vez que os gráficos entre esses conjuntos obedecem às estatísticas de um gráfico bipartido aleatório com a densidade especificada.

Se esse tipo de aproximação lhe interessar, você poderá obter mais milhas de outros lemas de regularidade de gráfico, especialmente Frieze-Kannan. Aqui está uma pesquisa.

GMB
fonte

Obrigado! A conexão com partições de regularidade é interessante.

Ou Meir