A reamostragem de bootstrap pode ser usada para calcular um intervalo de confiança para a variação de um conjunto de dados?
Sim, assim como em muitas outras estatísticas.
Sei que se você fizer uma nova amostragem de um conjunto de dados várias vezes e calcular a média a cada vez, esses meios seguirão uma distribuição normal (pelo CLT).
Nem sempre é o caso de que, se você inicializar um meio, o meio de inicialização seguirá uma distribuição normal, mesmo para distribuições às quais o CLT se aplica.
n = 100
Não é remotamente normal.
A amostra original consiste em noventa e sete valores '0' e um '1', um '2' e um '100'.
Aqui está o código (R) que corri para gerar o gráfico acima:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
O problema é que, neste caso, o tamanho da amostra (100) é muito pequeno para que o CLT seja aplicado com esse tipo de formato de distribuição; não importa quantas vezes a amostramos novamente.
No entanto, se o tamanho da amostra original for muito maior, a distribuição de reamostragem da amostra para algo como isso será mais normal (embora sempre discreta).
Aqui estão os ecdfs ao redefinir a amostra dos dados acima (preto) e para valores nas mesmas proporções, mas com dez vezes mais valores (vermelho; ou seja, n = 1000):
Como vemos, a função de distribuição ao reamostrar a amostra grande parece muito mais normal.
se eu fizesse uma nova amostragem de um conjunto de dados várias vezes e calculasse a variação cada vez, essas variações seguiriam uma certa distribuição
Não, pela mesma razão, não é necessariamente verdade para a média.
No entanto, o CLT também se aplica à variação *; é só que você não pode argumentar que o CLT se aplica à reamostragem de autoinicialização simplesmente fazendo muitas reamostragens. Se o tamanho da amostra original for suficientemente grande, isso pode (nas condições corretas) tender a tornar a distribuição de reamostragem de médias (e momentos mais altos, se existirem) relativamente próxima de uma distribuição normal (em relação à sua distribuição em amostras menores, em menos).
s2n= 1n∑ni = 1( xEu- x¯)2yEu= ( xEu- x¯)2s2n= y¯ys2ns2n - 1s2ns2ns2n - 1