Por que não relatar a média de uma distribuição de bootstrap?

30

Quando alguém inicializa um parâmetro para obter o erro padrão, obtemos uma distribuição do parâmetro. Por que não usamos a média dessa distribuição como resultado ou estimativa para o parâmetro que estamos tentando obter? A distribuição não deveria se aproximar da real? Portanto, obteríamos uma boa estimativa do valor "real"? No entanto, relatamos o parâmetro original que obtivemos de nossa amostra. Por que é que?

obrigado

Guillermo Perez
fonte

Respostas:

24

Como a estatística inicializada é mais uma abstração do parâmetro de sua população. Você tem seu parâmetro de população, sua estatística de amostra e apenas na terceira camada você tem o bootstrap. O valor médio inicializado não é um estimador melhor para o parâmetro de população. É apenas uma estimativa de uma estimativa.

Como a distribuição de autoinicialização contendo todas as combinações possíveis de autoinicialização centraliza-se em torno da estatística da amostra, da mesma forma que a estatística da amostra em torno do parâmetro populacional nas mesmas condições. Este artigo aqui resume essas coisas muito bem e é um dos mais fáceis que eu poderia encontrar. Para provas mais detalhadas, siga os documentos que eles estão referenciando. Exemplos dignos de nota são Efron (1979) e Singh (1981)n

A distribuição inicializada de segue a distribuição de que a torna útil na estimativa do erro padrão de uma estimativa amostral, na construção de intervalos de confiança e na estimativa de viés de um parâmetro. Não o torna um estimador melhor para o parâmetro da população. Apenas oferece uma alternativa às vezes melhor à distribuição paramétrica usual para a distribuição da estatística.θB-θ^θ^-θ

Cristian Dima
fonte
13

Há pelo menos um caso em que as pessoas não utilizar a média da distribuição de inicialização: ensacamento (abreviação de inicialização agregar ).

A idéia básica é que, se o seu estimador for muito sensível a perturbações nos dados (ou seja, o estimador tiver alta variação e baixo viés), será possível calcular a média de várias amostras de bootstrap para reduzir a quantidade de exemplos específicos sobredimensionados.

A página à qual vinculei aponta que isso introduz algum viés em sua estimativa, e é por isso que a média da amostra geralmente faz mais sentido do que a média das amostras de bootstrap. Mas se você tiver algo como uma árvore de decisão ou um classificador de vizinho mais próximo que possa mudar radicalmente em resposta a pequenas alterações nos dados, esse viés pode não ser uma preocupação tão grande quanto o sobreajuste.

David J. Harris
fonte
1
yθ
Normalmente, vejo a ensacagem usada para reduzir a variação das estimativas de uma pessoa para a resposta (ou seja, sua sensibilidade a flutuações nos dados). Os modelos ensacados mais comuns (por exemplo, árvores) normalmente não possuem parâmetros bem definidos que seriam facilmente comparados entre as amostras de inicialização.
David J. Harris
Obrigado, foi exatamente o que eu pensei. Para mim, ensacamento não parece fazer muito sentido para outra coisa senão a estimativa de uma resposta, por isso é limitado nesse sentido.
Momo
10

θBθ^θ^θ

Jeromy Anglim
fonte