Sempre fui ensinado que o CLT funciona quando você realiza amostragens repetidas, sendo cada amostra grande o suficiente. Por exemplo, imagine que eu tenho um país de 1.000.000 cidadãos. Meu entendimento do CLT é que, mesmo que a distribuição de suas alturas não fosse normal, se eu fizesse 1000 amostras de 50 pessoas (ou seja, fiz 1000 pesquisas com 50 cidadãos cada), calculei sua altura média para cada amostra, a distribuição dessas amostras meios seria normal.
No entanto, nunca vi um caso do mundo real em que os pesquisadores coletaram amostras repetidas. Em vez disso, eles coletam uma grande amostra (ou seja, entrevistam 50.000 cidadãos sobre sua altura) e trabalham com isso.
Por que os livros de estatística ensinam amostragem repetida e, no mundo real, os pesquisadores conduzem apenas uma única amostra?
Edit: O caso do mundo real em que estou pensando é fazer estatísticas sobre um conjunto de dados de 50.000 usuários do twitter. Obviamente, esse conjunto de dados não é amostras repetidas, é apenas uma grande amostra de 50.000.
Respostas:
O CLT (pelo menos em algumas de suas várias formas) nos diz que, no limite de distribuição de uma única média padronizada de amostra ( ) converge para uma distribuição normal (sob algumas condições).n → ∞ X¯- μσ/ n√
O CLT não nos diz o que acontece em ou .n = 50 n = 50 , 000
Mas, ao tentar motivar o CLT, particularmente quando nenhuma prova do CLT é oferecida, algumas pessoas confiam na distribuição amostral de para amostras finitas e mostram que, quando são coletadas amostras maiores, a distribuição amostral se aproxima da amostra. normal.X¯
Estritamente falando, isso não está demonstrando o CLT, está mais próximo de demonstrar o teorema de Berry-Esseen, pois demonstra algo sobre a taxa em que a abordagem da normalidade entra - mas que, por sua vez, nos levaria ao CLT, por isso serve bem como motivação (e, de fato, muitas vezes algo como o Berry-Esseen se aproxima do que as pessoas realmente querem usar em amostras finitas de qualquer maneira, de modo que a motivação possa, em certo sentido, ser mais útil na prática do que o próprio teorema do limite central) .
Bem, não, eles não seriam normais, mas na prática estariam muito próximos do normal (as alturas são um tanto distorcidas, mas não muito distorcidas).
[Observe novamente que o CLT realmente não nos diz nada sobre o comportamento da média da amostra para ; era isso que eu estava abordando na minha discussão anterior sobre Berry-Esseen, que trata de quão longe de um cdf normal a função de distribuição de meios padronizados pode estar para amostras finitas]n = 50
Para muitas distribuições, uma média de amostra de 50.000 itens teria muito perto de uma distribuição normal - mas não é garantido, mesmo em n = 50.000 que você terá muito perto de uma distribuição normal (se a distribuição dos itens individuais for suficientemente inclinada, por exemplo, a distribuição dos meios de amostra ainda pode ser inclinada o suficiente para tornar uma aproximação normal insustentável).
(O teorema de Berry-Esseen nos levaria a antecipar que exatamente esse problema poderia ocorrer - e comprovadamente ocorre. É fácil dar exemplos aos quais o CLT se aplica, mas para o qual n = 50.000 não é uma amostra suficientemente grande para a amostra. amostra padronizada significa estar próximo do normal.)
fonte