Eu já li / ouvi muitas vezes que o tamanho da amostra de pelo menos 30 unidades é considerado como "amostra grande" (suposições de normalidade de médias geralmente se mantêm devido ao CLT, ...). Portanto, em meus experimentos, eu normalmente gero amostras de 30 unidades. Você pode me dar alguma referência que deve ser citada ao usar o tamanho da amostra 30?
41
Respostas:
A escolha de n = 30 para um limite entre amostras pequenas e grandes é apenas uma regra de ouro. Há um grande número de livros que citam (em torno) esse valor, por exemplo, Probabilidade e Inferência Estatística de Hogg e Tanis (7e) diz "maior que 25 ou 30".
Dito isso, a história contada para mim foi que a única razão pela qual 30 foi considerada uma boa fronteira foi porque ela fez com que as tabelas t de Student, na parte de trás dos livros, se encaixassem perfeitamente em uma página. Isso e os valores críticos (entre t de Student e Normal) são desativados apenas em aproximadamente 0,25, de qualquer forma, de df = 30 a df = infinito. Para computação manual, a diferença realmente não importava.
Atualmente, é fácil calcular valores críticos para todo tipo de coisa com 15 casas decimais. Além disso, temos métodos de reamostragem e permutação para os quais nem sequer estamos restritos a distribuições paramétricas de população.
Na prática, nunca confio em n = 30. Plote os dados. Sobreponha uma distribuição normal, se quiser. Avalie visualmente se uma aproximação normal é apropriada (e pergunte se uma aproximação é realmente necessária). Se a geração de amostras para pesquisa e uma aproximação for obrigatória, gere um tamanho de amostra suficiente para tornar a aproximação o mais próximo possível (ou o mais próximo possível do ponto de vista computacional).
fonte
Na verdade, o "número mágico" 30 é uma falácia. Veja o delicioso artigo de Jacob Cohen, Coisas que eu aprendi (até agora) (Am. Psych. Dezembro de 1990 45 # 12, pp 1304-1312) . Esse mito é seu primeiro exemplo de como "algumas coisas que você aprende não são assim".
fonte
IMO, tudo depende do que você deseja usar sua amostra. Dois exemplos "tolos" para ilustrar o que quero dizer: se você precisar estimar uma média, 30 observações serão mais que suficientes. Se você precisar estimar uma regressão linear com 100 preditores, 30 observações não serão suficientes.
fonte
Regra de ouro principalmente arbitrária. Esta afirmação depende de vários fatores para ser verdadeira. Por exemplo, na distribuição dos dados. Se os dados vierem de um Cauchy, por exemplo, até 30 ^ 30 observações não são suficientes para estimar a média (nesse caso, mesmo um número infinito de observações não seria suficiente para causar convergir). Esse número (30) também é falso se os valores que você desenhar não forem independentes um do outro (novamente, você pode ter que não haja convergência, independentemente do tamanho da amostra).μ¯(n)
De um modo mais geral, o CLT precisa essencialmente de dois pilares para manter:
(Ambas essas condições podem ser um pouco enfraquecidas, mas as diferenças são amplamente de natureza teórica)
fonte