A entrada da Wikipedia sobre Bootstrapping é realmente muito boa:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
A razão mais comum pela qual a inicialização é aplicada é quando a forma da distribuição subjacente da qual uma amostra é retirada é desconhecida. Tradicionalmente, os estatísticos assumem uma distribuição normal (por boas razões relacionadas ao teorema do limite central), mas as estatísticas (como desvio padrão, intervalos de confiança, cálculos de potência etc.) estimadas via teoria da distribuição normal são estritamente válidas apenas se a distribuição da população subjacente for normal.
Ao amostrar repetidamente a própria amostra repetidamente, o bootstrapping permite estimativas independentes da distribuição. Tradicionalmente, cada "nova amostra" da amostra original seleciona aleatoriamente o mesmo número de observações que na amostra original. No entanto, estes são selecionados com substituição. Se a amostra tiver N observações, cada nova amostra de inicialização terá N observações, com muitas das amostras originais repetidas e muitas excluídas.
O parâmetro de interesse (por exemplo, odds ratio, etc.) pode ser estimado a partir de cada amostra inicializada. Repetir o bootstrap, digamos 1000 vezes, permite uma estimativa da "mediana" e intervalo de confiança de 95% na estatística (por exemplo, razão de chances), selecionando os percentis 2,5, 50 e 97,5.
O wiki sobre bootstrapping fornece a seguinte descrição:
Fornecerei mais detalhes se você puder esclarecer que parte da descrição acima não entende.
fonte
Gosto de pensar da seguinte maneira: Se você obtiver um conjunto de dados de amostra aleatória de uma população, presumivelmente essa amostra terá características que correspondem aproximadamente à da população de origem. Portanto, se você estiver interessado em obter intervalos de confiança em um recurso específico da distribuição, sua assimetria, por exemplo, você pode tratar a amostra como uma pseudo-população a partir da qual é possível obter muitos conjuntos de pseudo-amostras aleatórias, calculando o valor da característica de interesse em cada um. A suposição de que a amostra original corresponde aproximadamente à população também significa que você pode obter as pseudo-amostras por amostragem da pseudo-população "com substituição" (por exemplo, você coleta um valor, grava-o e, em seguida, coloca-o de volta; portanto, cada valor tem uma chance de ser observado várias vezes.).
fonte
Bootstrap é essencialmente uma simulação de experimentos repetidos; digamos que você tenha uma caixa com bolas e deseje obter um tamanho médio de bola - então você desenha algumas delas, mede e mede. Agora você deseja repeti-lo para obter a distribuição, por exemplo, para obter um desvio padrão - mas descobriu que alguém roubou a caixa.
O que pode ser feito agora é usar o que você tem - essa série de medições. A idéia é colocar as bolas na nova caixa e simular o experimento original, desenhando o mesmo número de bolas com reposição - ambas com o mesmo tamanho de amostra e alguma variabilidade. Agora, isso pode ser replicado várias vezes para obter uma série de meios que podem finalmente ser usados para aproximar a distribuição média.
fonte
fonte