Usando o bootstrap para obter a distribuição de amostra do 1º percentil

9

Eu tenho uma amostra (do tamanho 250) de uma população. Eu não sei a distribuição da população.

A principal questão: quero uma estimativa pontual do percentual da população e, em seguida, quero um intervalo de confiança de 95% em torno da minha estimativa pontual.

Minha estimativa de pontos será a amostra do primeiro percentual. Eu denoto isso .x

Depois disso, tento construir o intervalo de confiança em torno da estimativa pontual. Gostaria de saber se faz sentido usar o bootstrap aqui. Sou muito inexperiente com o bootstrap, então, desculpe se não conseguir usar a terminologia apropriada etc.

Aqui está como eu tentei fazê-lo. Eu colho 1000 amostras aleatórias com substituição da minha amostra original. Eu obtenho o percentual de cada um deles. Assim eu tenho 1000 pontos - "o 1 st -percentiles". Eu olho para a distribuição empírica desses 1000 pontos. Denoto a média disso . Denoto um "viés" da seguinte maneira: viés = x m e a n - x . Tomo a 2,5 º -percentile e 97,5 º percentil dos 1000 pontos para obter o menor eo maior efeito do que eu chamo um intervalo de confiança de 95% em todo o 1 stxmeanbias=xmeanx-percentil da amostra original. I denotar esses pontos e x 0,975 .x0.025x0.975

O último passo restante é adaptar esse intervalo de confiança para ficar em torno do percentil da população em vez de em torno do percentil da amostra original . Portanto, tomo como extremidade inferior e x - viés + ( x 0,975 - x m e a n ) como o limite superior do intervalo de confiança de 95% em torno da estimativa pontual 1 da populaçãoxbias(xmeanx0.025)xbias+(x0.975xmean) r -percentile. Este último intervalo é o que eu estava procurando.

Um importante ponto, na minha opinião, é se faz sentido a utilização de bootstrap para 1 st -percentile que é bastante perto da cauda da distribuição subjacente desconhecida da população. Eu suspeito que possa ser problemático; pense em usar o bootstrap para criar um intervalo de confiança em torno de um mínimo (ou máximo).

Mas talvez essa abordagem seja falha? Por favor deixe-me saber.

EDITAR:

xbias

xx-(xmeuman-x0,025)x+(x0,975-xmeuman)

Então, isso faz qualquer sentido supor que a amostra 1 st percentual é uma estimativa tendenciosa da população 1 st percentil? E se não, minha solução alternativa está correta?

Richard Hardy
fonte
Esta não aborda diretamente a questão de inicialização, mas poderia ser útil para você: onlinecourses.science.psu.edu/stat414/node/231
shadowtalker

Respostas:

11

n1 1-(1 1-1 1/n)n1 1-exp(-1 1)=63,2%exp(-1 1)-exp(-2)=23,3%

n

StasK
fonte
A resposta é útil, mas eu gostaria de ter uma idéia de quão próximo o percentil 1 está do mínimo em relação ao comportamento de autoinicialização? Eu acho que em amostras muito grandes o 1º percentil pode ser considerado "longe" do mínimo e os problemas listados acima podem ser ignorados, enquanto em amostras pequenas o 1º percentil será o próprio mínimo e os problemas serão muito importantes. Assim, estamos em algum lugar no meio. Eu acho que meu tamanho amostral de 250 observações deve ser considerado bem pequeno a esse respeito.
Richard Hardy