I ter executado através da afirmação de que cada amostra de bootstrap (ou árvore ensacado) irá conter, em média, cerca de das observações.
Eu entendo que a chance de não ser seleccionado em qualquer um dos retira amostras com reposição é , que funciona a cerca de chance de não ser selecionado.
O que é uma explicação matemática para porque esta fórmula sempre dá ?
Respostas:
e - 1 = 1 / e ≈ 1 / 3limn→∞(1−1/n)n=e−1
e−1=1/e≈1/3
Não funciona em muito pequeno - por exemplo, em , . Passa em , passa em e por . Depois de ir além de , é uma aproximação melhor que .n = 2 ( 1 - 1 / n ) n = 1n n=2 1(1−1/n)n=14 n=60,35n=110,366n=99n=11113 n=6 0.35 n=11 0.366 n=99 n=11 11e 13
A linha tracejada cinza está em ; a linha vermelha e cinza está em . 113 1e
Em vez de mostrar uma derivação formal (que pode ser facilmente encontrada), vou descrever (que é um argumento intuitivo e ondulado) do porquê de um resultado (um pouco) mais geral:
(Muitas pessoas consideram que esta é a definição de , mas você pode provar isso a partir de resultados mais simples, como definir como .)exp(x) e limn→∞(1+1/n)n
Fato 1: Isso resulta dos resultados básicos sobre potências e exponenciaçãoexp(x/n)n=exp(x)
Fato 2: Quando é grande, Isso segue a expansão da série para .n exp(x/n)≈1+x/n ex
(Posso fornecer argumentos mais completos para cada um deles, mas presumo que você já os conheça)
Substitua (2) em (1). Feito. (Para que isso funcione como um argumento mais formal, levaria algum trabalho, porque você teria que mostrar que os termos restantes no Fato 2 não se tornam grandes o suficiente para causar um problema quando levados ao poder . Mas isso é intuição em vez de prova formal.)n
[Como alternativa, basta levar a série Taylor para na primeira ordem. Uma segunda abordagem fácil é pegar a expansão binomial de e pegar o limite termo a termo, mostrando que ele fornece os termos da série para .]exp(x/n) (1+x/n)n exp(x/n)
Portanto, se , substitua .ex=limn→∞(1+x/n)n x=−1
Imediatamente, temos o resultado no topo desta resposta,limn→∞(1−1/n)n=e−1
Como Gung aponta nos comentários, o resultado na sua pergunta é a origem da regra de inicialização 632
por exemplo, veja
Efron, B. e R. Tibshirani (1997),
"Melhorias na validação cruzada: o método .632+ Bootstrap", "
Journal of the American Statistical Association vol. 92, n. 438. (junho), pp. 548-560
fonte
Mais precisamente, cada amostra de bootstrap (ou árvore ensacada) conterá da amostra.1−1e≈0.632
Vamos ver como o bootstrap funciona. Temos uma amostra original com itens. Desenhamos itens com substituição deste conjunto original até termos outro conjunto de tamanho .x1,x2,…xn n n
A partir disso, segue-se que a probabilidade de escolher qualquer item (digamos, ) no primeiro sorteio é . Portanto, a probabilidade de não escolher esse item é . Isso é apenas para o primeiro sorteio; há um total de draws, todos independentes, portanto a probabilidade de nunca escolher esse item em qualquer um dos draws é .x1 1n 1−1n n (1−1n)n
Agora, vamos pensar no que acontece quando fica cada vez maior. Podemos pegar o limite conforme avança para o infinito, usando os truques de cálculo comuns (ou Wolfram Alpha):n n
Essa é a probabilidade de um item não ser escolhido. Subtraia de um para encontrar a probabilidade do item ser escolhido, o que fornece 0,632.
fonte
A amostragem com substituição pode ser modelada como uma sequência de testes binomiais em que "sucesso" é uma instância que está sendo selecionada. Para um conjunto de dados original de instâncias, a probabilidade de "sucesso" é e a probabilidade de "falha" é . Para um tamanho de amostra de , as chances de selecionar uma instância exatamente vezes são dadas pela distribuição binomial:n 1/n (n−1)/n b x
No caso específico de uma amostra de autoinicialização, o tamanho da amostra é igual ao número de instâncias . Deixando aproximar do infinito, obtemos:n nb n n
Se nosso conjunto de dados original for grande, podemos usar esta fórmula para calcular a probabilidade de uma instância ser selecionada exatamente vezes em uma amostra de inicialização. Para , a probabilidade é , ou aproximadamente . A probabilidade de uma instância ser amostrada pelo menos uma vez é, portanto, .x = 0 1 / e 0,368 1 - 0,368 = 0,632x x=0 1/e 0.368 1−0.368=0.632
Escusado será dizer que deduzi meticulosamente isso usando papel e caneta e nem sequer considerei usar o Wolfram Alpha.
fonte
Apenas adicionando à resposta do @ retsreg, isso também pode ser demonstrado facilmente com a simulação numérica no R:
fonte
Isso pode ser facilmente visto contando. Quantas amostras totais possíveis? n ^ n. Quantos NÃO contêm um valor específico? (n-1) ^ n. Probabilidade de uma amostra não ter um valor específico - (1-1 / n) ^ n, que é cerca de 1/3 no limite.
fonte