Digamos que eu tenha os seguintes números:
4,3,5,6,5,3,4,2,5,4,3,6,5
Eu amostro alguns deles, digamos, 5 deles, e calculo a soma de 5 amostras. Repito isso repetidamente para obter muitas somas e planto os valores das somas em um histograma, que será gaussiano devido ao Teorema do Limite Central.
Mas quando eles estão seguindo números, substituí 4 por um grande número:
4,3,5,6,5,3,10000000,2,5,4,3,6,5
A amostragem de 5 amostras dessas nunca se torna gaussiana no histograma, mas mais como uma divisão e se torna duas gaussianas. Por que é que?
central-limit-theorem
JimSD
fonte
fonte
Respostas:
Vamos lembrar, precisamente, o que o teorema do limite central diz.
Isso é frequentemente usado na forma "informal":
Não há uma boa maneira de tornar essa forma do CLT matematicamente precisa, pois a distribuição "limite" muda, mas é útil nas práticas.
Quando temos uma lista estática de números como
e estamos amostrando, tomando um número aleatoriamente desta lista, para aplicar o teorema do limite central, precisamos ter certeza de que nosso esquema de amostragem satisfaz essas duas condições de independência e distribuição idêntica.
Portanto, se usarmos a amostragem de substituição em seu esquema, poderemos aplicar o teorema do limite central. Ao mesmo tempo, você está certo, se nossa amostra for do tamanho 5, veremos um comportamento muito diferente, dependendo se um número muito grande for escolhido ou não em nossa amostra.
Então, qual é o problema? Bem, a taxa de convergência para uma distribuição normal depende muito da forma da população da qual estamos amostrando; em particular, se nossa população é muito inclinada, esperamos que demore muito tempo para convergir para o normal. Este é o caso do nosso exemplo, portanto, não devemos esperar que uma amostra do tamanho 5 seja suficiente para mostrar a estrutura normal.
Acima, repeti seu experimento (com amostras de substituição) para amostras dos tamanhos 5, 100 e 1000. Você pode ver que a estrutura normal é emergente para amostras muito grandes.
(*) Observe que algumas condições técnicas são necessárias aqui, como média finita e variância. Eles são facilmente verificados como verdadeiros em nossa amostragem a partir de um exemplo de lista.
fonte
Em geral, o tamanho de cada amostra deve ser maior que para que a aproximação do CLT seja boa. Uma regra prática é uma amostra de tamanho ou mais. Mas, com a população do seu primeiro exemplo, está OK.5 30 5
No seu segundo exemplo, devido à forma da distribuição da população (por um lado, é muito distorcida; leia os comentários de guy e Glen_b abaixo), mesmo amostras do tamanho não fornecerão uma boa aproximação para a distribuição de a média da amostra usando o CLT.30
Mas, com essa segunda população, amostras de, digamos, tamanho são boas.100
fonte
Eu só gostaria de explicar, usando funções complexas de geração de cumulantes , por que todo mundo continua culpando isso de maneira distorcida.
Vamos escrever a variável aleatória que você está amostrando como , onde é a média e o desvio padrão para que tenha média e variância . A função de geração cumulativa de é . Aqui indica a inclinação de ; poderíamos escrevê-lo em termos da inclinação da variável original , viz. .μ+σZ μ σ Z 0 1 Z −12t2−iγ16t3+o(t3) γ1 Z κ3 μ+σZ γ1=σ−3κ3
Se dividirmos a soma de amostras da distribuição de por , o resultado terá cgfPara que uma aproximação Normal seja válida em tamanho suficientemente grande para o gráfico parecer correto, precisamos de suficientemente grande . Este cálculo motiva . As duas amostras que você considerou têm valores muito diferentes de .n Z n−−√ n(−12(tn−−√)2−iγ16(tn−−√)3)+o(t3)=−12t2−iγ16n−−√t3+o(t3). t n n∝γ21 γ1
fonte
A resposta curta é que você não possui uma amostra grande o suficiente para aplicar o teorema do limite central.
fonte