Podemos estimar o tamanho de um subconjunto X de um conjunto A, amostrando aleatoriamente subconjuntos de A?

8

Deixe ser um conjunto finito e suponha que queremos calcular o tamanho de um subconjunto . $A$ $X$

Motivação : Se podemos gerar elementos de uniformemente aleatoriamente, podemos estimar o tamanho de por amostragem aleatória. Ou seja, coletamos amostras aleatórias de , se pertencerem a , então . Infelizmente, pelo que faço, geralmenteé enorme e(enquanto maciço) é bem pequeno em relação a. Portanto, se eu tentar realizar a estimativa acima, é provável que obtenha , o que, embora não seja inútil, não é realmente tão satisfatório. $x$ $A$ $A$ $n$ $A$ $m$ $X$ $|X|/|A| \approx m/n$ $|A|$ $|X|$ $|A|$ $m=0$

Então, eu tenho uma idéia que espero que acelere esse processo. Em vez de jogar dardos em um enorme tabuleiro de dardos, por que não jogo bolas? Ou seja, em vez de amostragem elementos , nós subconjuntos da amostra de . Certamente eu deveria ser capaz de inferir algo sobre a densidade de em deste experimento. $x \in A$ $A$ $X$ $A$

Suponha que esteja equipado com uma métrica (eu tenho em mente a distância de Hamming). Para qualquer seja seja a bola fechada do raio em centrada em . Como podemos amostrar elementos uniformemente aleatoriamente, podemos amostrar bolas uniformemente aleatoriamente. $A$ $d(x,y)$ $y \in A$ $Y(y)=\{x \in A:d(x,y) \leq k\}$ $k$ $A$ $t$ $x \in A$ $k$ $Y_k(t)$

Suponha que (a) todo pertença exatamente ao mesmo número de bolas e (b) toda bola tenha o mesmo tamanho . $x \in A$ $k$ $k$ $r$

Agora suponha que eu gere bolas uniformemente aleatoriamente e suponha que. Parece que podemos estimarde maneira semelhante, isto é . $k$ $Y_1,Y_2,\ldots,Y_n$ $m=\sum_{i=1}^n |Y_i \cap X|$ $|A|$ $|X|/|A| \approx \frac{m}{rn}$

Então, minhas perguntas são:

Estou correto, pois podemos aproximarpor aqui? Se sim, duvido que seja o primeiro a pensar nisso, então existe um nome para esse método? $|X|$

Na verdade, testei isso em alguns sets e parece corresponder ao que afirmo.

Existem desvantagens nessa abordagem? (por exemplo, é menos preciso? preciso de mais amostras?)

estimation Douglas S. Stones
fonte

Eu acho que você cometeu um pequeno erro no segundo parágrafo: . Caso contrário, o que você está fazendo é basicamente reinventar a integração de Monte Carlo, bem, a versão do subconjunto que ainda não encontrei, mas não ficaria surpreso se já tiver feito.

| X | / | A | \approx m / n

$|X|/|A| \approx m/n$

Raskolnikov

Obrigado, sim, foi um erro (na verdade, houve um erro mais tarde também).

Douglas S. Stones

3

OK, tente ler a página da Wikipedia para a integração de Monte Carlo . Você verá que eles mencionam uma versão estratificada. Estratificação é o termo técnico em estatística para o que você tenta: subdividir em subconjuntos (subamostras). Eu acho que as referências podem ajudá-lo ainda mais.

Raskolnikov
fonte

3

Para qualquer subconjunto de , seja a probabilidade de você selecioná-lo em sua amostragem. Você descreveu uma variável aleatória $Y$ $A$ $\pi(Y)$

f (Y) = | Y \cap X | .

$f(Y) = |Y \cap X|.$

O total de na população dos subconjuntos de é $f$ $A$

τ (X) = \sum_{Y \subset UMA} | Y \cap X | = 2^{| UMA | - 1} | X | .

$\tau(X) = \sum_{Y \subset A}|Y \cap X| = 2^{|A|-1}|X|.$

A partir de uma amostra (com substituição) de subconjuntos de , digamos , o Hansen-Hurwitz Estimator obtém uma estimativa imparcial desse total como $A$ $Y_1, Y_2, \ldots, Y_m$

{\hat{f}}_{π} = \sum_{Eu = 1}^{m} \frac{| Y_{Eu} \cap X |}{π (Y_{Eu})} .

$\hat{f}_\pi = \sum_{i=1}^{m} \frac{|Y_i \cap X|}{\pi(Y_i)} .$

Dividindo isso por portanto estima . A variação de é $2^{|A|-1}|A|$ $|X|/|A|$ $\hat{f}_\pi$

Var ({\hat{f}}_{π}) = \frac{1}{m} \sum_{Y \subset UMA} π (Y) {(\frac{| Y \cap X |}{π (Y)} - 2^{| UMA | - 1} | X |)}^{2} .

$\text{Var}(\hat{f}_\pi) = \frac{1}{m} \sum_{Y \subset A} \pi(Y) \left( \frac{|Y \cap X|}{\pi(Y)} - 2^{|A|-1}|X| \right)^2\text{.}$

Dividindo por produz a variância amostral de . Dados , e um procedimento de amostragem proposto (que especifica para todos os ), escolha um valor de (o tamanho da amostra) para o qual a variação da estimativa se torne aceitável pequena. $2^{2(|A|-1)}|A|^2$ $|X|/|A|$ $A$ $X$ $\pi(Y)$ $Y \subset A$ $m$

whuber
fonte

ótimo, acho que essa é a resposta! Eu não conhecia Hansen-Hurwitz ...

robin girard

2

Presumo que sua medida seja finita. WLOG, pode ser uma probabilidade.

O primeiro procedimento mencionado é a boa e velha estimativa de probabilidade empírica :

$\hat{P}(Y\in X)= | \{ x_i \in X\} | /n$

(há montecarlo estimativa de um inetgral também é uma boa interpretação). Em alta dimensão, ele não funciona, pois é provável que esteja vazio para o A. típico. Como você notou, é necessário regularizar. Como a regularização sofisticada que você precisa está relacionada à dimensão do seu espaço. $\{x_i\in X\}$

Uma idéia é aumentar ou mesmo atribuir um peso a que não esteja em acordo com sua distância a , isto é o que eu chamaria de estimativa de probabilidade do kernel (por analogia com a estimativa de densidade do kernel ): $X$ $x_i$ $X$ $X$

$\hat{P}(Y\in X)= 1/(c(k) n)\sum_{i} K(d(x_i,X)/k)$

onde é um Kernel que integra a (no seu caso, pode ser mas núcleo gaussiano tem boas propriedades) e uma constante de normalização bem escolhido (isto é, tal que ). $K$ $1$ $K(x)=1\{x\leq 1\}$ $c(k)$ $\hat{P}(Y\in A)=1$

Robin Girard
fonte

Podemos estimar o tamanho de um subconjunto X de um conjunto A, amostrando aleatoriamente subconjuntos de A?

Respostas: