Alguns livros afirmam que um tamanho de amostra de tamanho 30 ou superior é necessário para que o teorema do limite central forneça uma boa aproximação para .
Eu sei que isso não é suficiente para todas as distribuições.
Desejo ver alguns exemplos de distribuições em que, mesmo com um grande tamanho de amostra (talvez 100, 1000 ou mais), a distribuição da média da amostra ainda é bastante distorcida.
Sei que já vi esses exemplos antes, mas não me lembro onde e não consigo encontrá-los.
Respostas:
Essa regra geral é praticamente completamente inútil. Existem distribuições não normais para as quais n = 2 fará distribuições normais e não normais para as quais muito maior é insuficiente - portanto, sem uma restrição explícita às circunstâncias, a regra é enganosa. De qualquer forma, mesmo que fosse verdade, o necessário variaria dependendo do que você estava fazendo. Frequentemente, você obtém boas aproximações perto do centro da distribuição em pequeno , mas precisa de muito maior para obter uma aproximação decente na cauda.n n nn n n n
Editar: Veja as respostas a esta pergunta para opiniões numerosas, mas aparentemente unânimes sobre esse assunto, e alguns bons links. Não vou insistir no assunto, já que você já o entende claramente.
Exemplos são relativamente fáceis de construir; Uma maneira fácil é encontrar uma distribuição infinitamente divisível que não seja normal e dividi-la. Se você tem um que se aproxima do normal quando faz a média ou o resumo, comece no limite de 'próximo ao normal' e divida-o quanto quiser. Então, por exemplo:
Considere uma distribuição gama com o parâmetro de forma . Pegue a escala como 1 (escala não importa). Digamos que você considere como "suficientemente normal". Então, uma distribuição para a qual você precisa obter 1000 observações para ser suficientemente normal possui uma distribuição . Gama ( α 0 , 1 ) Gama ( α 0 / 1000 , 1 )α Gama ( α0 0, 1 ) Gama ( α0 0/ 1000,1)
Portanto, se você achar que um Gamma com é apenas 'normal o suficiente' -α = 20
Em seguida, divida por 1000, para obter :α = 0,02α = 20 α = 0,02
A média de 1000 delas terá a forma do primeiro pdf (mas não a sua escala).
Se você escolher uma distribuição infinitamente divisível que não se aproxima do normal, como o Cauchy, talvez não haja tamanho de amostra no qual os meios de amostra tenham distribuições aproximadamente normais (ou, em alguns casos, eles ainda podem se aproximar da normalidade, mas você não tem um efeito para o erro padrão).σ/ n--√
O argumento do @ whuber sobre distribuições contaminadas é muito bom; pode ser bom tentar algumas simulações nesse caso e ver como as coisas se comportam em muitas dessas amostras.
fonte
Além das muitas ótimas respostas fornecidas aqui, Rand Wilcox publicou excelentes trabalhos sobre o assunto e mostrou que nossa verificação típica da adequação da aproximação normal é bastante enganadora (e subestima o tamanho da amostra necessário). Ele destaca que a média pode ser aproximadamente normal, mas isso é apenas metade da história quando não conhecemos o . Quando é desconhecido, normalmente usamos a distribuição para testes e limites de confiança. A variação da amostra pode estar muito, muito longe de uma distribuição escalonada e a relação resultante pode não parecer nada com uma distribuição quandoσ t χ 2 t t n = 30 s 2 ˉ Xσ σ t χ2 t t n = 30 . Simplificando, a não normalidade bagunça mais do que bagunça .s2 X¯
fonte
Você pode achar este documento útil (ou pelo menos interessante):
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
Os pesquisadores da UMass realizaram um estudo semelhante ao que você está perguntando. Em que tamanho de amostra determinados dados distribuídos seguem uma distribuição normal devido ao CLT? Aparentemente, muitos dados coletados para experimentos de psicologia não estão nem perto do normal, então a disciplina depende muito do CLT para fazer qualquer inferência em suas estatísticas.
Primeiro, eles executaram testes com dados uniformes, bimodais e uma distribuição normal. Usando Kolmogorov-Smirnov, os pesquisadores testaram quantas das distribuições foram rejeitadas por normalidade no nível .α = 0,05
Curiosamente, 65% dos dados distribuídos normalmente foram rejeitados com um tamanho de amostra de 20 e mesmo com um tamanho de amostra de 30, 35% ainda foram rejeitados.
Eles então testaram várias distribuições fortemente distorcidas criadas usando o método de potência de Fleishman:
X representa o valor obtido da distribuição normal, enquanto a, b, c e d são constantes (observe que a = -c).
Eles fizeram os testes com amostras de até 300
Eles descobriram que nos níveis mais altos de inclinação e kurt (1,75 e 3,75), tamanhos de amostra de 300 não produziam meios de amostra que seguiam uma distribuição normal.
Infelizmente, não acho que seja exatamente isso que você está procurando, mas me deparei com isso e achei interessante, e achei que você também poderia.
fonte