Aprecio a utilidade do bootstrap na obtenção de estimativas de incerteza, mas uma coisa que sempre me incomodou é que a distribuição correspondente a essas estimativas é a distribuição definida pela amostra. Em geral, parece uma má idéia acreditar que as frequências de nossa amostra se parecem exatamente com a distribuição subjacente; por que é aceitável derivar estimativas de incerteza com base em uma distribuição em que as frequências de amostra definem a distribuição subjacente?
Por outro lado, isso pode não ser pior (possivelmente melhor) do que outras suposições distributivas que costumamos fazer, mas eu ainda gostaria de entender um pouco melhor a justificativa.
bootstrap
uncertainty
user4733
fonte
fonte
Respostas:
Existem várias maneiras pelas quais é possível aplicar o bootstrap. As duas abordagens mais básicas são as que são consideradas o bootstrap "não paramétrico" e "paramétrico". O segundo pressupõe que o modelo que você está usando está (essencialmente) correto.
Vamos nos concentrar no primeiro. Vamos supor que você tem um random sample distribuídos de acordo com a função de distribuição . (Supondo que o contrário exija abordagens modificadas.) Seja seja a distribuição cumulativa empírica função. Grande parte da motivação para o bootstrap vem de alguns fatos.X1,X2,…,Xn F F^n(x)=n−1∑ni=11(Xi≤x)
Desigualdade de Dvoretzky – Kiefer – Wolfowitz
O que isso mostra é que a função de distribuição empírica converge uniformemente para a verdadeira função de distribuição exponencialmente rápida em probabilidade. De fato, essa desigualdade associada ao lema de Borel-Cantelli mostra imediatamente que quase com certeza.supx∈R|F^n(x)−F(x)|→0
Não há condições adicionais na forma de para garantir essa convergência.F
Heuristicamente, então, se estamos interessados em algum funcional da função de distribuição que seja suave , esperamos que esteja próximo de .T(F) T(F^n) T(F)
(Pointwise) Imparcialidade deF^n(x)
Pela linearidade simples da expectativa e pela definição de , para cada ,F^n(x) x∈R
Suponha que estamos interessados na média . Então, a imparcialidade da medida empírica se estende à imparcialidade dos funcionais lineares da medida empírica. Então,μ=T(F)
Portanto, está correto, em média, e como se aproxima rapidamente de , então (heuristicamente), se aproxima rapidamente de .T(F^n) Fn^ F T(F^n) T(F)
Para construir um intervalo de confiança ( que é, essencialmente, o que é o bootstrap ), podemos usar o teorema do limite central, a consistência de quantis empíricos e o método delta como ferramentas para passar de funcionais lineares simples a estatísticas de interesse mais complicadas .
Boas referências são
fonte
Aqui está uma abordagem diferente para pensar sobre isso:
Comece com a teoria em que conhecemos a verdadeira distribuição; podemos descobrir propriedades das estatísticas de amostra simulando a partir da verdadeira distribuição. Foi assim que Gosset desenvolveu a distribuição t e o teste t, coletando amostras de normais conhecidas e calculando a estatística. Esta é realmente uma forma de inicialização paramétrica. Observe que estamos simulando para descobrir o comportamento das estatísticas (às vezes em relação aos parâmetros).
Agora, e se não conhecermos a distribuição da população, temos uma estimativa da distribuição na distribuição empírica e podemos provar disso. Por amostragem da distribuição empírica (que é conhecida), podemos ver a relação entre as amostras de inicialização e a distribuição empírica (a população da amostra de inicialização). Agora inferimos que o relacionamento das amostras de bootstrap com a distribuição empírica é o mesmo que entre a amostra e a população desconhecida. Obviamente, quão bem essa relação se traduz dependerá de quão representativa é a amostra da população.
Lembre-se de que não estamos usando os meios das amostras de autoinicialização para estimar a média da população, usamos a média da amostra para isso (ou qualquer que seja a estatística de interesse). Mas estamos usando as amostras de autoinicialização para estimar propriedades (propagação, viés) do processo de amostragem. E usar amostragem de uma população conhecida (que esperamos que seja representativa da população de interesse) para aprender os efeitos da amostragem faz sentido e é muito menos circular.
fonte
O principal truque (e picada) do bootstrapping é que é uma teoria assintótica: se você tem uma amostra infinita para começar, a distribuição empírica será tão próxima da distribuição real que a diferença é desprezível.
Infelizmente, o bootstrapping é frequentemente aplicado em amostras pequenas. A sensação comum é que o bootstrap mostrou-se funcionando em algumas situações não assintóticas, mas tenha cuidado. Se o tamanho da sua amostra é muito pequeno, você está trabalhando condicionalmente para que a amostra seja uma 'boa representação' da verdadeira distribuição, o que leva muito facilmente ao raciocínio em círculos :-)
fonte
Eu argumentaria não da perspectiva de "assintoticamente, a distribuição empírica estará próxima da distribuição real" (que, é claro, é muito verdadeira), mas de uma "perspectiva de longo prazo". Em outras palavras, em qualquer caso em particular, a distribuição empírica derivada do bootstrapping será desativada (às vezes, deslocada demais para esse lado, às vezes, deslocada para esse lado, às vezes, inclinada para esse lado, às vezes, inclinada para esse lado), mas, em média , será uma boa aproximação à distribuição real. Da mesma forma, suas estimativas de incerteza derivadas da distribuição de inicialização serão desativadas em qualquer caso específico, mas novamente, em média, elas estarão (aproximadamente) corretas.
fonte