Quais referências devem ser citadas para apoiar o uso de 30 como um tamanho de amostra suficientemente grande?

41

Eu já li / ouvi muitas vezes que o tamanho da amostra de pelo menos 30 unidades é considerado como "amostra grande" (suposições de normalidade de médias geralmente se mantêm devido ao CLT, ...). Portanto, em meus experimentos, eu normalmente gero amostras de 30 unidades. Você pode me dar alguma referência que deve ser citada ao usar o tamanho da amostra 30?

Lan
fonte
2
Sem referência ao número de parâmetros que você tenta estimar ou equivalente ao tipo de modelo com o qual está trabalhando, parece bastante difícil fornecer uma resposta clara.
chl
2
A aceitação de n = 30 como limite de amostras pequenas e grandes não é bem suportada por nenhuma técnica estatística.
Jibol

Respostas:

37

A escolha de n = 30 para um limite entre amostras pequenas e grandes é apenas uma regra de ouro. Há um grande número de livros que citam (em torno) esse valor, por exemplo, Probabilidade e Inferência Estatística de Hogg e Tanis (7e) diz "maior que 25 ou 30".

Dito isso, a história contada para mim foi que a única razão pela qual 30 foi considerada uma boa fronteira foi porque ela fez com que as tabelas t de Student, na parte de trás dos livros, se encaixassem perfeitamente em uma página. Isso e os valores críticos (entre t de Student e Normal) são desativados apenas em aproximadamente 0,25, de qualquer forma, de df = 30 a df = infinito. Para computação manual, a diferença realmente não importava.

Atualmente, é fácil calcular valores críticos para todo tipo de coisa com 15 casas decimais. Além disso, temos métodos de reamostragem e permutação para os quais nem sequer estamos restritos a distribuições paramétricas de população.

Na prática, nunca confio em n = 30. Plote os dados. Sobreponha uma distribuição normal, se quiser. Avalie visualmente se uma aproximação normal é apropriada (e pergunte se uma aproximação é realmente necessária). Se a geração de amostras para pesquisa e uma aproximação for obrigatória, gere um tamanho de amostra suficiente para tornar a aproximação o mais próximo possível (ou o mais próximo possível do ponto de vista computacional).


fonte
13
Aqui está uma página sobre exatamente quão boa é a aproximação normal da distribuição t para n = 30. johndcook.com/normal_approx_to_t.html
John D. Cook
41

Na verdade, o "número mágico" 30 é uma falácia. Veja o delicioso artigo de Jacob Cohen, Coisas que eu aprendi (até agora) (Am. Psych. Dezembro de 1990 45 # 12, pp 1304-1312) . Esse mito é seu primeiro exemplo de como "algumas coisas que você aprende não são assim".

Um dos meus colegas candidatos a doutorado realizou uma dissertação [com] uma amostra de apenas 20 casos por grupo. ... [Mais] eu descobri ... que para uma comparação média de dois grupos independentes com por grupo no nível bicaudal santificado , a probabilidade de que um efeito de tamanho médio seja rotulado como significativo por ... um teste t foi de apenas . Assim, foi aproximadamente uma troca de moeda se alguém obteria um resultado significativo, mesmo que, na realidade, o tamanho do efeito fosse significativo. ... [Meu amigo] acabou com resultados não significativos - com os quais ele demoliu um importante ramo da teoria psicanalítica.n=30.05.47

Carlos Accioly
fonte
2
Referência bonita - e local relevante. Obrigado.
whuber
1
@whuber Você se lembra de qual papel era? O link está quebrado agora. Talvez este psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf , "Coisas que eu aprendi (até agora)"? O ano corresponde ao da URL do link quebrado.
ameba diz Restabelecer Monica
1
@Amoeba Salvei este documento quando o li, para que eu possa confirmar o que você encontrou. Atualizei esta resposta para incluir uma citação junto com o seu link.
whuber
@ Carlos Accioly Atualizei-o com o novo link, pois o anterior foi quebrado.
Akshay Bansal
9

IMO, tudo depende do que você deseja usar sua amostra. Dois exemplos "tolos" para ilustrar o que quero dizer: se você precisar estimar uma média, 30 observações serão mais que suficientes. Se você precisar estimar uma regressão linear com 100 preditores, 30 observações não serão suficientes.

bhm
fonte
9

Regra de ouro principalmente arbitrária. Esta afirmação depende de vários fatores para ser verdadeira. Por exemplo, na distribuição dos dados. Se os dados vierem de um Cauchy, por exemplo, até 30 ^ 30 observações não são suficientes para estimar a média (nesse caso, mesmo um número infinito de observações não seria suficiente para causar convergir). Esse número (30) também é falso se os valores que você desenhar não forem independentes um do outro (novamente, você pode ter que não haja convergência, independentemente do tamanho da amostra).μ¯(n)

De um modo mais geral, o CLT precisa essencialmente de dois pilares para manter:

  1. Que as variáveis ​​aleatórias são independentes: que você pode reordenar suas observações sem perder nenhuma informação *.
  2. Que o rv vem de uma distribuição com segundos momentos finitos: o que significa que os estimadores clássicos de média e sd tendem a convergir à medida que o tamanho da amostra aumenta.

(Ambas essas condições podem ser um pouco enfraquecidas, mas as diferenças são amplamente de natureza teórica)

user603
fonte
6
Seu exemplo ilustra o valor de estatísticas robustas. A mediana da amostra estima o parâmetro de localização de um poço de distribuição de Cauchy. Alguém poderia argumentar que o elo mais fraco do teste t com 30 amostras é o teste t, não as 30 amostras.
John D. Cook
1
John:> "Alguém poderia argumentar que o elo mais fraco do teste t com 30 amostras é o teste t, não as 30 amostras". Muito verdadeiro, e também a suposição de que os dados são iid . Além disso, a mediana é MLE para variáveis ​​aleatórias distribuídas por Cauchy (e, portanto, eficiente), mas em geral você pode precisar de mais de 30 observações.
user603
1
Nem todas as versões do CLT contam com distribuição idêntica, nem mesmo independência. As básicas ensinadas aos estudantes de graduação geralmente o fazem, mas existem versões que não fazem as duas suposições, por exemplo, o Lyapunov CLT assume independência, mas não distribuições idênticas, e a condição de independência também pode ser relaxada, por exemplo, veja aqui . Essa coisa de 'reordenar' também não é a mesma coisa que independência. Algumas formas de dependência não dependem da ordem.
Glen_b
2
Um tamanho de amostra 50.000 é insuficiente para que o CLT funcione suficientemente bem para calcular um intervalo de confiança para a média de uma distribuição log-normal.
Frank Harrell