Erro ao estimar o tamanho de um conjunto?

9

Suponha que tenhamos um conjunto A e um subconjunto B. Se conhecemos | A |, podemos calcular | B | encontrando a probabilidade p de que um elemento escolhido uniformemente aleatoriamente de A pertença a B. Especificamente | A | p = | B |.

Suponha que geremos n elementos de A uniformemente de forma aleatória e use esses dados para estimar p (número de elementos em B dividido por n) e, portanto, estimar | B |.

Quão confiável é essa estimativa? Ou seja, como podemos calcular o erro?

Como uma questão paralela, existe um nome para esta técnica? (parece ser uma versão matemática da técnica de marcar e recuperar )

Douglas S. Stones
fonte
11
É uma estimativa binomial . (Não há nenhuma marcação ou recapturar em tudo o que leva à estimativa hipergeométrico..)
whuber

Respostas:

8

Você está estimando proporções. Para concretizar, imagine que A é a população de eleitores e B é o conjunto de eleitores que votam em um candidato em particular. Assim, p seria a porcentagem de eleitores que votariam nesse candidato. Deixei:

π ser a verdadeira porcentagem de pessoas que votariam no candidato

Em outras palavras:

π=|B||UMA|

Então cada uma de suas amostras é um teste bernoulli com probabilidade πou de forma equivalente, você pode imaginar que cada uma de suas amostras é uma pesquisa de potenciais eleitores, perguntando se eles votariam no candidato. Assim, o MLE deπ É dado por:

p=nBn

Onde

nB é o número de pessoas que disseram que votariam no candidato ou o número de elementos que pertencem ao conjunto B na sua amostra de tamanho n.

O erro padrão para sua estimativa é:

π(1 1-π)n

O acima pode ser aproximado usando o MLE para π ou seja, por:

p(1 1-p)n


fonte