Acabei de aprender sobre o conceito de inicialização e surgiu uma pergunta ingênua: se sempre podemos gerar inúmeras amostras de inicialização de nossos dados, por que nos preocupar em obter mais dados "reais"?
Acho que tenho uma explicação, diga-me se estou correto: acho que o processo de inicialização reduz a variação, MAS, se meu conjunto de dados original é BIASED, estou preso a baixa variação e alta tendência, não importa quantas réplicas Estou levando.
Respostas:
O bootstrap é um método de fazer inferência de uma maneira que não requer assumir uma forma paramétrica para a distribuição da população. Não trata a amostra original como se fosse a população, mesmo aqueles que envolvem amostragem com substituição da amostra original. Parte do pressuposto de que a amostragem com substituição da amostra original de tamanho n imita a coleta de uma amostra de tamanho n de uma população maior. Ele também possui muitas variantes, como o m out de n bootstrap, que realiza uma nova amostragem de m de uma amostra de tamanho n em que m <n. As boas propriedades do bootstrap dependem da teoria assintótica. Como outros já mencionaram, o bootstrap não contém mais informações sobre a população do que as fornecidas na amostra original. Por esse motivo, às vezes não funciona bem em pequenas amostras.
No meu livro "Bootstrap Methods: A Practitioners Guide", segunda edição publicada por Wiley em 2007, aponto situações em que o bootstrap pode falhar. Isso inclui a distribuição que não possui momentos finitos, pequenos tamanhos de amostra, estimando valores extremos da distribuição e estimando a variação na amostragem da pesquisa em que o tamanho da população é N e uma amostra grande n é coletada. Em alguns casos, variantes do bootstrap podem funcionar melhor do que a abordagem original. Isso acontece com o m out de n bootstrap em algumas aplicações No caso de estimar taxas de erro em análises discriminantes, o 632 bootstrap é uma melhoria em relação a outros métodos, incluindo outros métodos de bootstrap.
Uma razão para usá-lo é que, às vezes, você não pode confiar em suposições paramétricas e, em algumas situações, o bootstrap funciona melhor do que outros métodos não paramétricos. Pode ser aplicado a uma ampla variedade de problemas, incluindo regressão não linear, classificação, estimativa de intervalo de confiança, estimativa de viés, ajuste de valores de p e análise de séries temporais para citar alguns.
fonte
Uma amostra de autoinicialização pode apenas dizer coisas sobre a amostra original e não fornecerá novas informações sobre a população real. É simplesmente um método não paramétrico para construir intervalos de confiança e similares.
Se você quiser obter mais informações sobre a população, precisará coletar mais dados da população.
fonte