Se tudo o que você está fazendo é re-amostragem da distribuição empírica, por que não apenas estudar a distribuição empírica? Por exemplo, em vez de estudar a variabilidade por amostragem repetida, por que não quantificar a variabilidade a partir da distribuição empírica?
13
Respostas:
O bootstrapping (ou outra reamostragem) é um método experimental para estimar a distribuição de uma estatística.
É um método muito direto e fácil (significa apenas que você calcula com muitas variantes aleatórias dos dados da amostra para obter, uma estimativa da distribuição desejada da estatística).
Você provavelmente o usa quando a expressão 'teórica / analítica' é muito difícil de obter / calcular (ou como aksakal diz que às vezes são desconhecidas).
Exemplo 1: Se você faz uma análise pca e deseja comparar os resultados com 'estimativas do desvio dos valores próprios', dada a hipótese de que não há correlação nas variáveis.
Você pode embaralhar os dados várias vezes e recalcular os valores próprios do pca para obter uma distribuição (com base em testes aleatórios com os dados da amostra) para os valores próprios.
Observe que as práticas atuais estão contemplando um scree plot e aplicam regras de ouro para 'decidir' se um determinado valor próprio é significativo / importante ou não.
Exemplo 2: Você fez uma regressão não linear y ~ f (x) fornecendo uma estimativa de vários parâmetros para a função f. Agora você deseja saber o erro padrão para esses parâmetros.
Um simples olhar para os resíduos e álgebra linear, como no OLS, não é possível aqui. No entanto, uma maneira fácil é calcular a mesma regressão muitas vezes com os resíduos / erros embaralhados para ter uma idéia de como os parâmetros variariam (dada a distribuição do termo de erro que pode ser modelada pelos resíduos observados).
Escrito por StackExchangeStrike
fonte
O principal é que o bootstrap não é realmente sobre descobrir os recursos da distribuição do dados , mas sim descobrir características de um estimador aplicado aos dados.
Algo como a função de distribuição empírica fornecerá uma estimativa bastante boa do CDF a partir do qual os dados vieram ... mas, ao isolar, não diz essencialmente nada sobre a confiabilidade dos estimadores que construímos a partir desses dados. Esta é a pergunta respondida usando o bootstrap.
fonte
Se você sabe exatamente qual é a distribuição subjacente, não precisa estudá-la. Às vezes, nas ciências naturais, você sabe exatamente a distribuição.
Se você conhece o tipo da distribuição, é necessário apenas estimar seus parâmetros e estudá-lo no sentido que você quis dizer. Por exemplo, em algum momento você sabe a priori que a distribuição subjacente é normal. Em alguns casos, você sabe até o que isso significa. Portanto, para o normal, a única coisa que resta a descobrir é o desvio padrão. Você obtém o desvio padrão da amostra e, voila, obtém a distribuição para estudar.
Se você não sabe qual é a distribuição, mas acha que ela é uma das várias na lista, tente ajustar essa distribuição aos dados e escolher a que melhor se encaixa. ENTÃO você estuda essa distribuição.
Finalmente, muitas vezes você não sabe o tipo de distribuição com a qual está lidando. E você não tem um motivo para acreditar que pertence a uma das 20 distribuições nas quais o R pode ajustar seus dados. O que você vai fazer? Ok, você olha para desvios médios e padrão, bom. Mas e se for muito assimétrico? E se a curtose for muito grande? e assim por diante. Você realmente precisa conhecer todos os momentos da distribuição para conhecer e estudá-lo. Portanto, nesse caso, a inicialização não paramétrica é útil. Você não pressupõe muita amostra simples e estuda seus momentos e outras propriedades.
Embora a inicialização não paramétrica não seja uma ferramenta mágica, ela tem problemas. Por exemplo, pode ser tendencioso. Eu acho que o bootstrapping paramétrico é imparcial
fonte