Onde bootstrapping - alguém pode fornecer uma explicação simples para começar?

9

Apesar de várias tentativas de ler sobre o bootstrap, pareço sempre bater em uma parede de tijolos. Gostaria de saber se alguém pode dar uma definição razoavelmente não técnica de bootstrapping?

Sei que não é possível neste fórum fornecer detalhes suficientes para que eu possa entendê-lo completamente, mas um empurrão suave na direção certa com o objetivo principal e o mecanismo de inicialização seria muito apreciado! Obrigado.

pmgjones
fonte

Respostas:

8

A entrada da Wikipedia sobre Bootstrapping é realmente muito boa:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

A razão mais comum pela qual a inicialização é aplicada é quando a forma da distribuição subjacente da qual uma amostra é retirada é desconhecida. Tradicionalmente, os estatísticos assumem uma distribuição normal (por boas razões relacionadas ao teorema do limite central), mas as estatísticas (como desvio padrão, intervalos de confiança, cálculos de potência etc.) estimadas via teoria da distribuição normal são estritamente válidas apenas se a distribuição da população subjacente for normal.

Ao amostrar repetidamente a própria amostra repetidamente, o bootstrapping permite estimativas independentes da distribuição. Tradicionalmente, cada "nova amostra" da amostra original seleciona aleatoriamente o mesmo número de observações que na amostra original. No entanto, estes são selecionados com substituição. Se a amostra tiver N observações, cada nova amostra de inicialização terá N observações, com muitas das amostras originais repetidas e muitas excluídas.

O parâmetro de interesse (por exemplo, odds ratio, etc.) pode ser estimado a partir de cada amostra inicializada. Repetir o bootstrap, digamos 1000 vezes, permite uma estimativa da "mediana" e intervalo de confiança de 95% na estatística (por exemplo, razão de chances), selecionando os percentis 2,5, 50 e 97,5.

Thylacoleo
fonte
8

A American Scientist recentemente publicou um belo artigo de Cosma Shalizi sobre o bootstrap, que é uma leitura bastante fácil e fornece o essencial para entender o conceito.

ars
fonte
7

De maneira muito ampla: a intuição, bem como a origem do nome ("puxando-se pelas botas"), deriva da observação de que, ao usar propriedades de uma amostra para extrair inferências sobre uma população (o problema "inverso" de estatística), inferência), esperamos errar. Para descobrir a natureza desse erro, trate a amostra em si como uma população por si só e estude como o procedimento inferencial funciona quando você extrai amostras dele. Isso é um "forward" problema: você sabe tudo sobre o seu sample- qua-população e não precisa adivinhar nada sobre isso. Seu estudo sugerirá (a) até que ponto seu procedimento inferencial pode ser tendencioso e (b) o tamanho e a natureza do erro estatístico de seu procedimento. Portanto, use essas informações para ajustar suas estimativas originais. Em muitas situações (mas definitivamente não em todas), o viés ajustado é assintoticamente muito menor.

Um insight fornecido por essa descrição esquemática é que o bootstrapping não requer simulação ou subamostragem repetida: essas são apenas maneiras onerosas e tratáveis ​​por computador para estudar qualquer tipo de procedimento estatístico quando a população é conhecida. Existem muitas estimativas de autoinicialização que podem ser computadas matematicamente.

Essa resposta deve muito ao livro de Peter Hall "The Bootstrap and Edgeworth Expansion" (Springer 1992), especialmente sua descrição do "Princípio Principal" do bootstrap.

whuber
fonte
Eu gosto dessa abordagem "original" (escrita outras entradas). Ainda assim, eu sempre acho difícil explicar por que de bootstrap funciona na prática ...
chl
4

O wiki sobre bootstrapping fornece a seguinte descrição:

O bootstrapping permite reunir muitas versões alternativas da estatística única que normalmente seriam calculadas a partir de uma amostra. Por exemplo, suponha que estamos interessados ​​na altura das pessoas em todo o mundo. Como não podemos medir toda a população, amostramos apenas uma pequena parte dela. A partir dessa amostra, apenas um valor de uma estatística pode ser obtido, ou seja, uma média ou um desvio padrão etc., e, portanto, não vemos quanto essa estatística varia. Ao usar o bootstrap, extraímos aleatoriamente uma nova amostra de n alturas dos N dados amostrados, onde cada pessoa pode ser selecionada no máximo t vezes. Ao fazer isso várias vezes, criamos um grande número de conjuntos de dados que poderíamos ter visto e calculamos a estatística para cada um desses conjuntos de dados. Assim, obtemos uma estimativa da distribuição da estatística.

Fornecerei mais detalhes se você puder esclarecer que parte da descrição acima não entende.


fonte
4

Gosto de pensar da seguinte maneira: Se você obtiver um conjunto de dados de amostra aleatória de uma população, presumivelmente essa amostra terá características que correspondem aproximadamente à da população de origem. Portanto, se você estiver interessado em obter intervalos de confiança em um recurso específico da distribuição, sua assimetria, por exemplo, você pode tratar a amostra como uma pseudo-população a partir da qual é possível obter muitos conjuntos de pseudo-amostras aleatórias, calculando o valor da característica de interesse em cada um. A suposição de que a amostra original corresponde aproximadamente à população também significa que você pode obter as pseudo-amostras por amostragem da pseudo-população "com substituição" (por exemplo, você coleta um valor, grava-o e, em seguida, coloca-o de volta; portanto, cada valor tem uma chance de ser observado várias vezes.).

Mike Lawrence
fonte
3

Bootstrap é essencialmente uma simulação de experimentos repetidos; digamos que você tenha uma caixa com bolas e deseje obter um tamanho médio de bola - então você desenha algumas delas, mede e mede. Agora você deseja repeti-lo para obter a distribuição, por exemplo, para obter um desvio padrão - mas descobriu que alguém roubou a caixa.
O que pode ser feito agora é usar o que você tem - essa série de medições. A idéia é colocar as bolas na nova caixa e simular o experimento original, desenhando o mesmo número de bolas com reposição - ambas com o mesmo tamanho de amostra e alguma variabilidade. Agora, isso pode ser replicado várias vezes para obter uma série de meios que podem finalmente ser usados ​​para aproximar a distribuição média.


fonte
3

Essa é a essência do bootstrap: coletar amostras diferentes de seus dados, obter uma estatística para cada amostra (por exemplo, média, mediana, correlação, coeficiente de regressão etc.) e usar a variabilidade da estatística nas amostras para indicar algo sobre o erro padrão e os intervalos de confiança para a estatística. - Bootstrapping e o pacote de inicialização no R

Jeromy Anglim
fonte