Pressupostos relativos às estimativas de incerteza de autoinicialização

62

Aprecio a utilidade do bootstrap na obtenção de estimativas de incerteza, mas uma coisa que sempre me incomodou é que a distribuição correspondente a essas estimativas é a distribuição definida pela amostra. Em geral, parece uma má idéia acreditar que as frequências de nossa amostra se parecem exatamente com a distribuição subjacente; por que é aceitável derivar estimativas de incerteza com base em uma distribuição em que as frequências de amostra definem a distribuição subjacente?

Por outro lado, isso pode não ser pior (possivelmente melhor) do que outras suposições distributivas que costumamos fazer, mas eu ainda gostaria de entender um pouco melhor a justificativa.

user4733
fonte
3
Há várias perguntas relacionadas que você pode querer examinar. Alguns estão listados na margem lateral desta página. Aqui está uma sobre quando o bootstrap falha e o que significa para ele falhar.
cardeal

Respostas:

55

Existem várias maneiras pelas quais é possível aplicar o bootstrap. As duas abordagens mais básicas são as que são consideradas o bootstrap "não paramétrico" e "paramétrico". O segundo pressupõe que o modelo que você está usando está (essencialmente) correto.

Vamos nos concentrar no primeiro. Vamos supor que você tem um random sample distribuídos de acordo com a função de distribuição . (Supondo que o contrário exija abordagens modificadas.) Seja seja a distribuição cumulativa empírica função. Grande parte da motivação para o bootstrap vem de alguns fatos.X1,X2,,XnFF^n(x)=n1i=1n1(Xix)

Desigualdade de Dvoretzky – Kiefer – Wolfowitz

P(supxR|F^n(x)F(x)|>ε)2e2nε2.

O que isso mostra é que a função de distribuição empírica converge uniformemente para a verdadeira função de distribuição exponencialmente rápida em probabilidade. De fato, essa desigualdade associada ao lema de Borel-Cantelli mostra imediatamente que quase com certeza.supxR|F^n(x)F(x)|0

Não há condições adicionais na forma de para garantir essa convergência.F

Heuristicamente, então, se estamos interessados ​​em algum funcional da função de distribuição que seja suave , esperamos que esteja próximo de .T(F)T(F^n)T(F)

(Pointwise) Imparcialidade deF^n(x)

Pela linearidade simples da expectativa e pela definição de , para cada ,F^n(x)xR

EFF^n(x)=F(x).

Suponha que estamos interessados ​​na média . Então, a imparcialidade da medida empírica se estende à imparcialidade dos funcionais lineares da medida empírica. Então, μ=T(F)

EFT(F^n)=EFX¯n=μ=T(F).

Portanto, está correto, em média, e como se aproxima rapidamente de , então (heuristicamente), se aproxima rapidamente de .T(F^n)Fn^FT(F^n)T(F)

Para construir um intervalo de confiança ( que é, essencialmente, o que é o bootstrap ), podemos usar o teorema do limite central, a consistência de quantis empíricos e o método delta como ferramentas para passar de funcionais lineares simples a estatísticas de interesse mais complicadas .

Boas referências são

  1. B. Efron, métodos Bootstrap: Outro olhar sobre o canivete , Ann. Estado. vol. 7, n. 1, 1-26.
  2. B. Efron e R. Tibshirani, Uma Introdução ao Bootstrap , Chapman-Hall, 1994.
  3. GA Young e RL Smith, Essentials of Statistical Inference , Cambridge University Press, 2005, Capítulo 11 .
  4. AW van der Vaart, Estatística Assintótica , Cambridge University Press, 1998, Capítulo 23 .
  5. P. Bickel e D. Freedman, Alguma teoria assintótica para o bootstrap . Ann. Estado. vol. 9, n. 6 (1981), 1196-1217.
cardeal
fonte
Muito bom, @ cardinal (+1).
Explicação clara, referências são dadas, excelente resposta.
vesszabo
só de pensar, a condição de que é uma "amostra aleatória" de é na verdade um lugar onde as coisas acontecem. Por exemplo, usando uma amostra de uma população do Facebook. Se você deseja inferir sobre os usuários do Facebook, o bootstrap funcionará. Se você deseja inferir sobre a população em geral, o bootstrap não ajudará aqui, porque o ao qual está sendo convergido não é a distribuição de interesse. XiFF(x)
probabilityislogic
12

Aqui está uma abordagem diferente para pensar sobre isso:

Comece com a teoria em que conhecemos a verdadeira distribuição; podemos descobrir propriedades das estatísticas de amostra simulando a partir da verdadeira distribuição. Foi assim que Gosset desenvolveu a distribuição t e o teste t, coletando amostras de normais conhecidas e calculando a estatística. Esta é realmente uma forma de inicialização paramétrica. Observe que estamos simulando para descobrir o comportamento das estatísticas (às vezes em relação aos parâmetros).

Agora, e se não conhecermos a distribuição da população, temos uma estimativa da distribuição na distribuição empírica e podemos provar disso. Por amostragem da distribuição empírica (que é conhecida), podemos ver a relação entre as amostras de inicialização e a distribuição empírica (a população da amostra de inicialização). Agora inferimos que o relacionamento das amostras de bootstrap com a distribuição empírica é o mesmo que entre a amostra e a população desconhecida. Obviamente, quão bem essa relação se traduz dependerá de quão representativa é a amostra da população.

Lembre-se de que não estamos usando os meios das amostras de autoinicialização para estimar a média da população, usamos a média da amostra para isso (ou qualquer que seja a estatística de interesse). Mas estamos usando as amostras de autoinicialização para estimar propriedades (propagação, viés) do processo de amostragem. E usar amostragem de uma população conhecida (que esperamos que seja representativa da população de interesse) para aprender os efeitos da amostragem faz sentido e é muito menos circular.

Greg Snow
fonte
8

O principal truque (e picada) do bootstrapping é que é uma teoria assintótica: se você tem uma amostra infinita para começar, a distribuição empírica será tão próxima da distribuição real que a diferença é desprezível.

Infelizmente, o bootstrapping é frequentemente aplicado em amostras pequenas. A sensação comum é que o bootstrap mostrou-se funcionando em algumas situações não assintóticas, mas tenha cuidado. Se o tamanho da sua amostra é muito pequeno, você está trabalhando condicionalmente para que a amostra seja uma 'boa representação' da verdadeira distribuição, o que leva muito facilmente ao raciocínio em círculos :-)

Nick Sabbe
fonte
foi o que pensei, mas há algo circular nesse raciocínio. Eu não sou um estatístico, mas meu senso era que a inferência estatística funciona quando seus estimadores convergem rapidamente, portanto, mesmo que sua amostra não tenha convergido na distribuição, suas inferências são sólidas. Nesse caso, estamos contando com toda a distribuição empreconômica para convergir para a distribuição real. Talvez haja teoremas dizendo que algumas estimativas de bootstrap convergem rapidamente, mas geralmente vejo o bootstrapping aplicado sem apelar para tais teoremas.
User4733 de
4
O aparente raciocínio circular é o motivo pelo qual foi apelidado de bootstrap. Parecia que as pessoas estavam tentando se erguer com suas próprias botas. Mais tarde, Efron mostrou que realmente funcionou.
Greg Snow
Se o tamanho da amostra é muito pequeno, você precisa de muita confiança quaisquer métodos Yuo uso ...
Kjetil b Halvorsen
5

Eu argumentaria não da perspectiva de "assintoticamente, a distribuição empírica estará próxima da distribuição real" (que, é claro, é muito verdadeira), mas de uma "perspectiva de longo prazo". Em outras palavras, em qualquer caso em particular, a distribuição empírica derivada do bootstrapping será desativada (às vezes, deslocada demais para esse lado, às vezes, deslocada para esse lado, às vezes, inclinada para esse lado, às vezes, inclinada para esse lado), mas, em média , será uma boa aproximação à distribuição real. Da mesma forma, suas estimativas de incerteza derivadas da distribuição de inicialização serão desativadas em qualquer caso específico, mas novamente, em média, elas estarão (aproximadamente) corretas.

Wolfgang
fonte