Quão bem o bootstrapping se aproxima da distribuição amostral de um estimador?

29

Tendo estudado recentemente o bootstrap, surgiu uma pergunta conceitual que ainda me intriga:

Você tem uma população e deseja conhecer um atributo da população, ou seja, , onde eu uso para representar a população. Esse pode ser a média da população, por exemplo. Normalmente você não pode obter todos os dados da população. Então você desenha uma amostra do tamanho da população. Vamos supor que você tenha uma amostra de iid por simplicidade. Então você obtém seu estimador . Você deseja usar para fazer inferências sobre , portanto, gostaria de saber a variabilidade de .P θ X N θ = g ( X ) θ θ θθ=g(P)PθXNθ^=g(X)θ^θθ^

Primeiro, há uma verdadeira distribuição amostral de . Conceitualmente, você pode desenhar muitas amostras (cada uma delas com tamanho ) da população. Cada vez que você realizará pois cada vez terá uma amostra diferente. Então, no final, você poderá recuperar a verdadeira distribuição de . Ok, isso pelo menos é o benchmark conceitual para estimativa da distribuição de . Deixe-me reafirmar: o objetivo final é usar vários métodos para estimar ou aproximar a verdadeira distribuição de . N θ =g(X) θ θθ^Nθ^=g(X)θ^θ^θ^

Agora, aqui vem a pergunta. Normalmente, você tem apenas uma amostra que contém pontos de dados. Em seguida, você reamostrar essa amostra várias vezes e criará uma distribuição de bootstrap de . Minha pergunta é: quão perto está essa distribuição de bootstrap da distribuição de amostragem real de ? Existe uma maneira de quantificá-lo?N θXNθ^θ^

KevinKim
fonte
1
Esta questão altamente relacionada contém uma riqueza de informações adicionais, a ponto de tornar essa questão possivelmente uma duplicata.
Xian
Primeiro, obrigado a todos por responderem às minhas perguntas tão rapidamente. É a primeira vez que uso este site. Eu nunca esperei que minha pergunta chamasse a atenção de alguém honestamente. Eu tenho uma pequena pergunta aqui, o que é 'OP' @ Silverfish?
KevinKim
@ Chen Chen: "OP" = pôster original (ou seja, você!). Desculpas pelo uso de uma abreviação, que eu aceito é potencialmente confusa.
Silverfish
1
Eu editei o título para que ele mais de perto corresponde à sua afirmação de que "A minha pergunta é: quão perto é esta a verdadeira distribuição de θ ? Existe uma maneira de quantificar isso?" Sinta-se à vontade para revertê-lo, se você não acha que minha edição reflete sua intenção. θ^
Silverfish
@ Silverfish Muito obrigado. Quando inicio este pôster, não tenho muita certeza da minha pergunta. Este novo título é bom.
precisa saber é o seguinte

Respostas:

20

Na teoria da informação, a maneira típica de quantificar o quão "próxima" uma distribuição é a de usar a divergência KL

Vamos tentar ilustrá-lo com um conjunto de dados de cauda longa altamente inclinado - atrasos nas chegadas de aviões no aeroporto de Houston (do pacote hflights ). Vamos θ ser o estimador de média. Primeiro, encontramos a distribuição amostral de θ , e, em seguida, a distribuição de bootstrap de θθ^θ^θ^

Aqui está o conjunto de dados:

insira a descrição da imagem aqui

A média verdadeira é 7,09 min.

Primeiro, fazemos um certo número de amostras a obter a distribuição amostral de θ , então vamos dar uma amostra e ter muitas amostras de bootstrap a partir dele.θ^

Por exemplo, vamos dar uma olhada em duas distribuições com o tamanho da amostra 100 e 5000 repetições. Vemos visualmente que essas distribuições são bastante separadas e a divergência de KL é de 0,48.

insira a descrição da imagem aqui

Mas quando aumentamos o tamanho da amostra para 1000, eles começam a convergir (a divergência de KL é 0,11)

insira a descrição da imagem aqui

E quando o tamanho da amostra é 5000, eles estão muito próximos (a divergência de KL é 0,01)

insira a descrição da imagem aqui

θ^θ^

Aqui está o código R deste experimento: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794

Alexey Grigorev
fonte
5
+1 e isso também mostra que, para qualquer tamanho de amostra determinado (como, por exemplo, 100), o viés de boottap pode ser grande e inevitável.
ameba diz Restabelecer Monica
θ^θ^N
NB=10B=10000θ^NBθ^
1
θ^B=10B=100001010000
1
F555FBFB
23

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n)n x
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n)g(F^n)

insira a descrição da imagem aquiFF^nn=100250FF^n

Atualização adicional: Aqui está a aparência da imagem do tubo ao iniciar a partir do cdf empírico: insira a descrição da imagem aqui

Xi'an
fonte
5
O cerne desta resposta é que o bootstrap funciona porque é uma aproximação de amostra grande . Eu não acho que este ponto é enfatizado o suficiente
shadowtalker
2
Quer dizer, "enfatizou muitas vezes suficiente em geral"
shadowtalker
@ Xi'an Muito obrigado. Eu gosto dos dois últimos painéis, então, neste exemplo, vamos fingir que não sabemos o verdadeiro cdf, ou seja, a curva vermelha no lhs, só tenho o cdf empíricoF^n=100
3
FnF
@ Xi'an Muito bom! seria ainda melhor se a figura 2 e 3 podem ser combinadas em uma figura
KevinKim