Por que o teorema do limite central trabalha com uma única amostra?

12

Sempre fui ensinado que o CLT funciona quando você realiza amostragens repetidas, sendo cada amostra grande o suficiente. Por exemplo, imagine que eu tenho um país de 1.000.000 cidadãos. Meu entendimento do CLT é que, mesmo que a distribuição de suas alturas não fosse normal, se eu fizesse 1000 amostras de 50 pessoas (ou seja, fiz 1000 pesquisas com 50 cidadãos cada), calculei sua altura média para cada amostra, a distribuição dessas amostras meios seria normal.

No entanto, nunca vi um caso do mundo real em que os pesquisadores coletaram amostras repetidas. Em vez disso, eles coletam uma grande amostra (ou seja, entrevistam 50.000 cidadãos sobre sua altura) e trabalham com isso.

Por que os livros de estatística ensinam amostragem repetida e, no mundo real, os pesquisadores conduzem apenas uma única amostra?

Edit: O caso do mundo real em que estou pensando é fazer estatísticas sobre um conjunto de dados de 50.000 usuários do twitter. Obviamente, esse conjunto de dados não é amostras repetidas, é apenas uma grande amostra de 50.000.

Anton
fonte
Coletar uma amostra de 1.000 de 50.000 é quase o mesmo que coletar 1000 amostras únicas independentemente de 50.000. Quanto menor a amostra (ou maior o universo), mais se parecerão.
Thomas Ahle

Respostas:

14

O CLT (pelo menos em algumas de suas várias formas) nos diz que, no limite de distribuição de uma única média padronizada de amostra ( ) converge para uma distribuição normal (sob algumas condições).nX¯-μσ/n

O CLT não nos diz o que acontece em ou .n=50.n=50.,000

Mas, ao tentar motivar o CLT, particularmente quando nenhuma prova do CLT é oferecida, algumas pessoas confiam na distribuição amostral de para amostras finitas e mostram que, quando são coletadas amostras maiores, a distribuição amostral se aproxima da amostra. normal.X¯

Estritamente falando, isso não está demonstrando o CLT, está mais próximo de demonstrar o teorema de Berry-Esseen, pois demonstra algo sobre a taxa em que a abordagem da normalidade entra - mas que, por sua vez, nos levaria ao CLT, por isso serve bem como motivação (e, de fato, muitas vezes algo como o Berry-Esseen se aproxima do que as pessoas realmente querem usar em amostras finitas de qualquer maneira, de modo que a motivação possa, em certo sentido, ser mais útil na prática do que o próprio teorema do limite central) .

a distribuição dessas médias amostrais seria normal.

Bem, não, eles não seriam normais, mas na prática estariam muito próximos do normal (as alturas são um tanto distorcidas, mas não muito distorcidas).

[Observe novamente que o CLT realmente não nos diz nada sobre o comportamento da média da amostra para ; era isso que eu estava abordando na minha discussão anterior sobre Berry-Esseen, que trata de quão longe de um cdf normal a função de distribuição de meios padronizados pode estar para amostras finitas]n=50.

O caso do mundo real em que estou pensando é fazer estatísticas sobre um conjunto de dados de 50.000 usuários do twitter. Obviamente, esse conjunto de dados não é amostras repetidas, é apenas uma grande amostra de 50.000.

Para muitas distribuições, uma média de amostra de 50.000 itens teria muito perto de uma distribuição normal - mas não é garantido, mesmo em n = 50.000 que você terá muito perto de uma distribuição normal (se a distribuição dos itens individuais for suficientemente inclinada, por exemplo, a distribuição dos meios de amostra ainda pode ser inclinada o suficiente para tornar uma aproximação normal insustentável).

(O teorema de Berry-Esseen nos levaria a antecipar que exatamente esse problema poderia ocorrer - e comprovadamente ocorre. É fácil dar exemplos aos quais o CLT se aplica, mas para o qual n = 50.000 não é uma amostra suficientemente grande para a amostra. amostra padronizada significa estar próximo do normal.)

Glen_b -Reinstate Monica
fonte
Para verificar se 50.000 é grande o suficiente, poderia-se fazer uma simulação em R, por exemplo, correto? Eu usaria a média e o desvio padrão da amostra, mas como me certificaria de simular a partir da mesma distribuição da minha amostra?
Amonet
A rigor, você precisa simular a partir da distribuição da população. Você pode tratar a distribuição de sua amostra como uma estimativa da distribuição da população (semelhante à inicialização) - mas isso não será adequado para esse fim. Como exemplo, considere ter extraído uma amostra de uma distribuição de Cauchy e, em seguida, reamostrando a amostra com substituição. (para amostras cada vez maiores), até a distribuição dos meios reamostrados parecer "suficientemente normal". Você sempre concluirá que algum tamanho de amostra finito é suficiente, mas na verdade nunca seria.
Glen_b -Reinstala Monica 13/02/19