Média da amostra de bootstrap vs estatística da amostra

18

Digamos que eu tenha uma amostra e a amostra de bootstrap dessa amostra para um estastítico (por exemplo, a média). Como todos sabemos, esta amostra de bootstrap estima a distribuição amostral do estimador da estatística.χ

Agora, a média dessa amostra de bootstrap é uma estimativa melhor da estatística da população do que a estatística da amostra original ? Em que condições seria esse o caso?

Amelio Vazquez-Reina
fonte
2
A média da amostra de inicialização é a média da amostra e, nesse caso, você não precisa de uma amostra de inicialização.
Xi'an
1
Obrigado @ Xi'an Não tenho certeza se sigo. A média da amostra de autoinicialização pode ser numericamente diferente da média da amostra. Você está tentando dizer que os dois ainda são teoricamente equivalentes? Você pode confirmar nos dois lados?
Amelio Vazquez-Reina
2
Vamos deixar nossa terminologia clara: "amostra de inicialização" pode se referir a uma amostra específica com substituição dos dados ou a uma variável aleatória (multivariada) da qual essa amostra seria considerada uma realização. Você está certo de que a média de uma realização pode diferir da média dos dados, mas @ Xi'an fornece a observação mais relevante de que a média da variável aleatória (que por definição é a estimativa de autoinicialização da média da população ) deve coincidir com a média dos dados.
whuber
1
Então sua pergunta é quase idêntica a stats.stackexchange.com/questions/126633/… ; a única diferença é que as realizações da amostra de inicialização podem se sobrepor, mas a análise dada na resposta é facilmente transferida para a situação da inicialização, com o mesmo resultado.
whuber
1
Eu vejo a conexão @whuber, embora no bootstrap tenha "subconjuntos com substituição" e as realizações possam se sobrepor, como você disse. Eu imagino que a distribuição (por exemplo, pseudo-aleatoriedade) usada para obter as re-amostras no bootstrap também possa afetar o viés da estimativa da amostra do bootstrap. Talvez a resposta seja que, para todas as questões práticas, a diferença é insignificante. É disso que se trata a questão: condições, sutilezas e a diferença na prática.
Amelio Vazquez-Reina

Respostas:

19

Vamos generalizar, de modo a focar no cerne da questão. Explicarei os mínimos detalhes para não deixar dúvidas. A análise requer apenas o seguinte:

  1. A média aritmética de um conjunto de números é definida comoz1,,zm

    1m(z1++zm).
  2. A expectativa é um operador linear. Ou seja, quando são variáveis ​​aleatórias e são números, a expectativa de uma combinação linear é a combinação linear das expectativas,α iZi,i=1,,mαi

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

Seja uma amostra obtida de um conjunto de dados , retirando elementos uniformemente de com substituição. Deixe ser a média aritmética de . Esta é uma variável aleatória. Então( B 1 , , B k ) x = ( x 1 , , x n ) k x m ( B ) BB(B1,,Bk)x=(x1,,xn)kxm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

segue pela linearidade da expectativa. Como os elementos de são todos obtidos da mesma maneira, todos têm a mesma expectativa, dizem:bBb

E(B1)==E(Bk)=b.

Isso simplifica o que precede

E(m(B))=1k(b+b++b)=1k(kb)=b.

Por definição, a expectativa é a soma dos valores ponderados pela probabilidade. Como se supõe que cada valor de tenha uma chance igual de de ser selecionado,1 / nX1/n

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=x¯,

a média aritmética dos dados.

Para responder à pergunta, se alguém usar a média dos dados para estimar a média da população, a média da autoinicialização (que é o caso ) também será igual a e, portanto, será idêntica ao estimador da média da população . k=n ˉ xx¯k=nx¯


Para estatísticas que não são funções lineares dos dados, o mesmo resultado não é necessariamente válido. No entanto, seria errado simplesmente substituir a média de autoinicialização pelo valor da estatística nos dados: não é assim que a autoinicialização funciona. Em vez disso, comparando a média do bootstrap com a estatística dos dados , obtemos informações sobre o viés da estatística. Isso pode ser usado para ajustar a estatística original para remover o viés. Como tal, a estimativa corrigida pelo viés torna-se assim uma combinação algébrica da estatística original e a média do bootstrap. Para obter mais informações, consulte "BCa" (inicialização otimizada e corrigida e corrigida) e "ABC". A Wikipedia fornece algumas referências.

whuber
fonte
Você quer dizer que a expectativa da média do bootstrap é igual à média dos dados, não? O próprio meio de autoinicialização não é determinado pela amostra de dados (original).
capybaralet
@ user2429920 A média de autoinicialização é uma estatística determinada pela amostra. Nesse sentido, é idêntico à média da amostra. Sua expectativa é tomada no sentido da distribuição amostral. Eu suspeito que você possa estar usando "expectativa" em um sentido diferente em relação ao processo de calcular a média de autoinicialização via subamostragem repetida com substituição.
whuber
1
Penso que o último parágrafo é a resposta real a esta pergunta, pois é geral e não se concentra apenas na estatística média. Eu tinha a mesma dúvida que o OP e não sabia da existência do BCa. Embora a demonstração nesta resposta não tenha me ajudado muito (não estou usando a média como estatística), o último parágrafo foi muito claro sobre o cerne da questão. Eu acredito que a resposta de Xi'an também aborda o caso em que a estatística média é usada, o mesmo problema. Obrigado!
Gabriel
1
@ Gabriel bons pontos. Eu verifiquei o registro: antes da edição, essa pergunta originalmente era feita apenas sobre a média. É por isso que as respostas parecem estar tão focadas nessa estatística.
whuber
9

Como a distribuição de auto-inicialização é definida como a média da distribuição do bootstrap é Quando você (se for necessário) implementar uma versão de simulação dessa expectativa, ou seja, uma média de sorteios aleatórios, há variabilidade de Monte Carlo em essa aproximação de , mas sua média (a expiração da média empírica) e seu limite quando o número de simulações de bootstrap cresce até o infinito são exatamente .E F N [ X ] = 1

F^n(x)=1ni=1nIXixXiiidF(x),
E F N[X] ˉ X N
EF^n[X]=1ni=1nXi=X¯n
EF^n[X]X¯n
Xi'an
fonte
2
+1 Esta é a resposta que eu originalmente queria escrever, mas temia que fosse muito opaco para alguns leitores. Ainda assim, fico feliz em vê-lo tão elegantemente apresentado. Não sei ao certo o que você quer dizer na sua última frase, onde parece diferenciar a "expectativa" da aproximação simulada à média do seu "limite": uma vez que a expectativa é constante (não varia com o tamanho da simulação) ), não há realmente nenhum limite a ser cumprido.
whuber
@whuber: Obrigado pelo comentário e desculpe por escrever minha resposta concisa exatamente ao mesmo tempo que a sua! Suas explicações são certamente mais legíveis para iniciantes no bootstrap. Corrigi a sentença final, cuja parte limitante é a lei dos grandes números.
Xi'an
3
Seu uso de "mau" nessa última frase é bastante ambíguo! Eu descobri isso a partir da sua pista do LLN. Para qualquer simulação finita da distribuição de inicialização, cada amostra na simulação produz sua própria média (há um significado de "média"). A média de todas as amostras em uma determinada simulação produz uma média de simulação (há outro significado). A média da simulação converge para uma constante à medida que o tamanho da simulação aumenta, que é a média da autoinicialização (um terceiro significado), e isso é igual à média da amostra (o quarto significado). (E isso estima a média da população - um quinto significado!)
whuber