Chance de que a amostra de inicialização seja exatamente igual à amostra original

9

Só quero verificar algum raciocínio.

Se minha amostra original é do tamanho e eu a inicializo, meu processo de pensamento é o seguinte:n

n-11n é a chance de qualquer observação extraída da amostra original. Para garantir que o próximo sorteio não seja a observação amostrada anteriormente, restringimos o tamanho da amostra para . Assim, obtemos este padrão:n1

1n1n11n21n(n1)=1n!.

Isso está correto? Eu tropeço no motivo pelo qual não pode ser .(1n)n

Jayant.M
fonte
11
Não tenho certeza se estou te seguindo. Por que você deseja "garantir que o próximo sorteio não seja a amostra anterior"? No bootstrapping, a idéia é provar com substituição. Ou seja, você fazer quer que seja possível que o próximo sorteio é o mesmo que aquele que você já tenha desenhado.
gung - Restabelece Monica
mas isso não significa que a amostra inicializada não é igual à amostra original?
Jayant.M
Eu não sigo você. Você não quer necessariamente que o exemplo de botas seja idêntico à sua amostra, apenas deseja tratar a amostra como um modelo da população.
gung - Restabelece Monica
11
Portanto, minha pergunta é qual é a chance de o exemplo de inicialização ser igual ao exemplo original. Estou interessado no bootstrap ser idêntico ao exemplo
Jayant.M
Desculpe se minha pergunta não estava clara!
Jayant.M

Respostas:

17

Observe que, em cada posição de observação ( ), podemos escolher qualquer uma das observações; portanto, existem possíveis novas amostras (mantendo a ordem em que são desenhadas) das quaissão a "mesma amostra" (ou seja, contêm todas as observações originais sem repetições; isso explica todas as maneiras de solicitar a amostra com a qual começamos).n n n n ! ni=1,2,...,nnnnn!n

Por exemplo, com três observações, a, bec, você tem 27 amostras possíveis:

aaa aab aac aba abb abc aca acb acc 
baa bab bac bba bbb bbc bca bcb bcc 
caa cab cac cba cbb cbc cca ccb ccc 

Seis deles contêm um de a, bec.

Portanto, é a probabilidade de recuperar a amostra original.n!/nn

Além - uma rápida aproximação da probabilidade:

Considere o seguinte :

2π nn+12enn!e nn+12en

tão

2π n12enn!/nne n12en

Com o limite inferior sendo o usual dado para a aproximação de Stirling (que possui um erro relativo baixo para grande ).n

[Gosper sugeriu o uso de que produziria a aproximação para esta probabilidade , que funciona razoavelmente bem até ou até dependendo de quão rigorosos são seus critérios.]n!(2n+13)πnnen(2n+13)πenn=3n=1


(Resposta ao comentário :) A probabilidade de não obter uma observação específica em uma determinada amostra é que para grande é aproximadamente .nE-1(11n)nne1

Para obter detalhes, consulte
Por que, em média, cada amostra de inicialização contém aproximadamente dois terços das observações?

Glen_b -Reinstate Monica
fonte
Obrigado! como ponto de interesse, qual é a chance de não obter uma entrada específica em uma amostra? por exemplo, com a distribuição de lhe deu, há uma chance de não obter uma amostra com um 8/27aa,b,ca
Jayant.M
11
Isso já foi abordado em outras respostas no site, mas eu o adicionei acima (brevemente).
Glen_b -Reinstala Monica
11
Portanto, essa é a probabilidade de obter uma amostra que é uma permutação da amostra original. Em vez disso, a probabilidade de obter exatamente a mesma sequência da amostra original (portanto, os mesmos elementos na mesma ordem) é . Direita? (1n)n
DeltaIV 23/01
11
@ deltaiv sim, apenas um dosarranjos está na ordem original. n!
Glen_b -Replica Monica
11
A aproximação de Gosper não funciona bem até , e não apenas ? Eu acho que 0,499 (para ) é uma aproximação muito boa de 0,5 e 0,996 (para ) também é bem próximo de 1,0. n = 3 n = 2 n = 1n=1n=3n=2n=1
Karl Ove Hufthammer