Prós e contras do bootstrapping

11

Acabei de aprender sobre o conceito de inicialização e surgiu uma pergunta ingênua: se sempre podemos gerar inúmeras amostras de inicialização de nossos dados, por que nos preocupar em obter mais dados "reais"?

Acho que tenho uma explicação, diga-me se estou correto: acho que o processo de inicialização reduz a variação, MAS, se meu conjunto de dados original é BIASED, estou preso a baixa variação e alta tendência, não importa quantas réplicas Estou levando.

Noale
fonte
4
o bootstrapping não cria mais informações do que já está nos dados (e no modelo) ... os dados reais podem fornecer mais informações
Glen_b -Reinstate Monica 20/17
2
Concordo com Glen_b que ele não cria mais informações, mas não concordo que possa fornecer menos informações. Como disse na minha resposta, nem sempre funciona bem, mas isso pode ser dito de qualquer método estatístico.
Michael R. Chernick
11
Pergunta interessante - talvez um conceito relacionado seja por que o bootstrap funciona? . Compreender isso ajudará a saber quando é útil. Pensei no bootstrap como uma melhoria em relação à aproximação normal para distribuições de amostras. Ele pode lidar com desvios da normalidade que não são muito extremos. Outro recurso atraente é que você não precisa fazer um trabalho analítico / algébrico - a replicação faz isso por você.
probabilityislogic

Respostas:

15

O bootstrap é um método de fazer inferência de uma maneira que não requer assumir uma forma paramétrica para a distribuição da população. Não trata a amostra original como se fosse a população, mesmo aqueles que envolvem amostragem com substituição da amostra original. Parte do pressuposto de que a amostragem com substituição da amostra original de tamanho n imita a coleta de uma amostra de tamanho n de uma população maior. Ele também possui muitas variantes, como o m out de n bootstrap, que realiza uma nova amostragem de m de uma amostra de tamanho n em que m <n. As boas propriedades do bootstrap dependem da teoria assintótica. Como outros já mencionaram, o bootstrap não contém mais informações sobre a população do que as fornecidas na amostra original. Por esse motivo, às vezes não funciona bem em pequenas amostras.

No meu livro "Bootstrap Methods: A Practitioners Guide", segunda edição publicada por Wiley em 2007, aponto situações em que o bootstrap pode falhar. Isso inclui a distribuição que não possui momentos finitos, pequenos tamanhos de amostra, estimando valores extremos da distribuição e estimando a variação na amostragem da pesquisa em que o tamanho da população é N e uma amostra grande n é coletada. Em alguns casos, variantes do bootstrap podem funcionar melhor do que a abordagem original. Isso acontece com o m out de n bootstrap em algumas aplicações No caso de estimar taxas de erro em análises discriminantes, o 632 bootstrap é uma melhoria em relação a outros métodos, incluindo outros métodos de bootstrap.

Uma razão para usá-lo é que, às vezes, você não pode confiar em suposições paramétricas e, em algumas situações, o bootstrap funciona melhor do que outros métodos não paramétricos. Pode ser aplicado a uma ampla variedade de problemas, incluindo regressão não linear, classificação, estimativa de intervalo de confiança, estimativa de viés, ajuste de valores de p e análise de séries temporais para citar alguns.

Michael R. Chernick
fonte
6

Uma amostra de autoinicialização pode apenas dizer coisas sobre a amostra original e não fornecerá novas informações sobre a população real. É simplesmente um método não paramétrico para construir intervalos de confiança e similares.

Se você quiser obter mais informações sobre a população, precisará coletar mais dados da população.

einar
fonte