Podemos estimar o tamanho de um subconjunto X de um conjunto A, amostrando aleatoriamente subconjuntos de A?

8

Deixe ser um conjunto finito e suponha que queremos calcular o tamanho de um subconjunto .UMAX

Motivação : Se podemos gerar elementos de uniformemente aleatoriamente, podemos estimar o tamanho de por amostragem aleatória. Ou seja, coletamos amostras aleatórias de , se pertencerem a , então . Infelizmente, pelo que faço, geralmenteé enorme e(enquanto maciço) é bem pequeno em relação a. Portanto, se eu tentar realizar a estimativa acima, é provável que obtenha , o que, embora não seja inútil, não é realmente tão satisfatório.xUMAUMAnUMAmX|X|/|UMA|m/n|UMA||X||UMA|m=0 0

Então, eu tenho uma idéia que espero que acelere esse processo. Em vez de jogar dardos em um enorme tabuleiro de dardos, por que não jogo bolas? Ou seja, em vez de amostragem elementos , nós subconjuntos da amostra de . Certamente eu deveria ser capaz de inferir algo sobre a densidade de em deste experimento.xUMAUMAXUMA

Suponha que esteja equipado com uma métrica (eu tenho em mente a distância de Hamming). Para qualquer seja seja a bola fechada do raio em centrada em . Como podemos amostrar elementos uniformemente aleatoriamente, podemos amostrar bolas uniformemente aleatoriamente.UMAd(x,y)yUMAY(y)={xUMA:d(x,y)k}A t x A k Y k ( t )kUMAtxUMAkYk(t)

Suponha que (a) todo pertença exatamente ao mesmo número de bolas e (b) toda bola tenha o mesmo tamanho .k k rxUMAkkr

Agora suponha que eu gere bolas uniformemente aleatoriamente e suponha que. Parece que podemos estimarde maneira semelhante, isto é .Y 1 , Y 2 , ... , Y n m = Σ n i = 1 | Y iX | | Um | | X | / | Um | mkY1,Y2,,Ynm=Eu=1n|YEuX||UMA||X|/|UMA|mrn

Então, minhas perguntas são:

Estou correto, pois podemos aproximarpor aqui? Se sim, duvido que seja o primeiro a pensar nisso, então existe um nome para esse método?|X|

Na verdade, testei isso em alguns sets e parece corresponder ao que afirmo.

Existem desvantagens nessa abordagem? (por exemplo, é menos preciso? preciso de mais amostras?)

Douglas S. Stones
fonte
Eu acho que você cometeu um pequeno erro no segundo parágrafo: . Caso contrário, o que você está fazendo é basicamente reinventar a integração de Monte Carlo, bem, a versão do subconjunto que ainda não encontrei, mas não ficaria surpreso se já tiver feito. |X|/|UMA|m/n
Raskolnikov
Obrigado, sim, foi um erro (na verdade, houve um erro mais tarde também).
Douglas S. Stones

Respostas:

3

OK, tente ler a página da Wikipedia para a integração de Monte Carlo . Você verá que eles mencionam uma versão estratificada. Estratificação é o termo técnico em estatística para o que você tenta: subdividir em subconjuntos (subamostras). Eu acho que as referências podem ajudá-lo ainda mais.

Raskolnikov
fonte
3

Para qualquer subconjunto de A , seja π ( Y ) a probabilidade de você selecioná-lo em sua amostragem. Você descreveu uma variável aleatóriaYUMAπ(Y)

f(Y)=|YX|.

O total de na população dos subconjuntos de A éfUMA

τ(X)=YUMA|YX|=2|UMA|-1|X|.

A partir de uma amostra (com substituição) de subconjuntos de , digamos Y 1 , Y 2 , , Y m , o Hansen-Hurwitz Estimator obtém uma estimativa imparcial desse total comoUMAY1,Y2,,Ym

f^π=Eu=1m|YEuX|π(YEu).

Dividindo isso por portanto estima | X | / | Um | . A variação de f π é2|UMA|-1|UMA||X|/|UMA|f^π

Var(f^π)=1mYUMAπ(Y)(|YX|π(Y)-2|UMA|-1|X|)2.

Dividindo por produz a variância amostral de | X | / | Um | . Dados A , X e um procedimento de amostragem proposto (que especifica π ( Y ) para todos os Y A ), escolha um valor de m (o tamanho da amostra) para o qual a variação da estimativa se torne aceitável pequena.22(|UMA|-1)|UMA|2|X|/|UMA|UMAXπ(Y)YUMAm

whuber
fonte
ótimo, acho que essa é a resposta! Eu não conhecia Hansen-Hurwitz ...
robin girard
2

Presumo que sua medida seja finita. WLOG, pode ser uma probabilidade.

O primeiro procedimento mencionado é a boa e velha estimativa de probabilidade empírica :

P^(YX)=|{xEuX}|/n

(há montecarlo estimativa de um inetgral também é uma boa interpretação). Em alta dimensão, ele não funciona, pois é provável que esteja vazio para o A. típico. Como você notou, é necessário regularizar. Como a regularização sofisticada que você precisa está relacionada à dimensão do seu espaço.{xEuX}

Uma idéia é aumentar ou mesmo atribuir um peso a x i que não esteja em X de acordo com sua distância a X , isto é o que eu chamaria de estimativa de probabilidade do kernel (por analogia com a estimativa de densidade do kernel ):XxEuXX

P^(YX)=1/(c(k)n)EuK(d(xEu,X)/k)

onde é um Kernel que integra a 1 (no seu caso, pode ser K ( x ) = 1 { x 1 } mas núcleo gaussiano tem boas propriedades) e c ( k ) uma constante de normalização bem escolhido (isto é, tal que P ( Y A ) = 1 ).K1K(x)=1{x1}c(k)P^(YUMA)=1

Robin Girard
fonte