Digamos que eu tenha uma amostra e a amostra de bootstrap dessa amostra para um estastítico (por exemplo, a média). Como todos sabemos, esta amostra de bootstrap estima a distribuição amostral do estimador da estatística.
Agora, a média dessa amostra de bootstrap é uma estimativa melhor da estatística da população do que a estatística da amostra original ? Em que condições seria esse o caso?
estimation
bootstrap
Amelio Vazquez-Reina
fonte
fonte
Respostas:
Vamos generalizar, de modo a focar no cerne da questão. Explicarei os mínimos detalhes para não deixar dúvidas. A análise requer apenas o seguinte:
A média aritmética de um conjunto de números é definida comoz1,…,zm
A expectativa é um operador linear. Ou seja, quando são variáveis aleatórias e são números, a expectativa de uma combinação linear é a combinação linear das expectativas,α iZi,i=1,…,m αi
Seja uma amostra obtida de um conjunto de dados , retirando elementos uniformemente de com substituição. Deixe ser a média aritmética de . Esta é uma variável aleatória. Então( B 1 , … , B k ) x = ( x 1 , … , x n ) k x m ( B ) BB (B1,…,Bk) x = ( x1, … , Xn) k x m ( B ) B
segue pela linearidade da expectativa. Como os elementos de são todos obtidos da mesma maneira, todos têm a mesma expectativa, dizem:bB b
Isso simplifica o que precede
Por definição, a expectativa é a soma dos valores ponderados pela probabilidade. Como se supõe que cada valor de tenha uma chance igual de de ser selecionado,1 / nX 1 / n
a média aritmética dos dados.
Para responder à pergunta, se alguém usar a média dos dados para estimar a média da população, a média da autoinicialização (que é o caso ) também será igual a e, portanto, será idêntica ao estimador da média da população . k=n ˉ xx¯ k = n x¯
Para estatísticas que não são funções lineares dos dados, o mesmo resultado não é necessariamente válido. No entanto, seria errado simplesmente substituir a média de autoinicialização pelo valor da estatística nos dados: não é assim que a autoinicialização funciona. Em vez disso, comparando a média do bootstrap com a estatística dos dados , obtemos informações sobre o viés da estatística. Isso pode ser usado para ajustar a estatística original para remover o viés. Como tal, a estimativa corrigida pelo viés torna-se assim uma combinação algébrica da estatística original e a média do bootstrap. Para obter mais informações, consulte "BCa" (inicialização otimizada e corrigida e corrigida) e "ABC". A Wikipedia fornece algumas referências.
fonte
Como a distribuição de auto-inicialização é definida como a média da distribuição do bootstrap é Quando você (se for necessário) implementar uma versão de simulação dessa expectativa, ou seja, uma média de sorteios aleatórios, há variabilidade de Monte Carlo em essa aproximação de , mas sua média (a expiração da média empírica) e seu limite quando o número de simulações de bootstrap cresce até o infinito são exatamente .E F N [ X ] = 1
fonte