Aprendi que um tamanho pequeno de amostra pode levar a energia insuficiente e a erros do tipo 2. No entanto, tenho a sensação de que pequenas amostras podem geralmente não ser confiáveis e podem levar a qualquer tipo de resultado por acaso. Isso é verdade?
21
Respostas:
Como princípio geral, o tamanho pequeno da amostra não aumentará a taxa de erro do Tipo I pelo simples motivo de o teste ser organizado para controlar a taxa do Tipo I. (Existem pequenas exceções técnicas associadas a resultados discretos, que podem fazer com que a taxa nominal do Tipo I não seja atingida exatamente, especialmente em amostras pequenas.)
Há um princípio importante aqui: se o seu teste tiver tamanho aceitável (= taxa nominal do Tipo I) e potência aceitável para o efeito que você procura, mesmo que o tamanho da amostra seja pequeno, tudo bem.
O perigo é que, se soubermos pouco sobre a situação - talvez esses sejam todos os dados que temos -, talvez possamos nos preocupar com erros do "Tipo III": ou seja, erros de especificação do modelo. Pode ser difícil verificar com pequenos conjuntos de amostras.
Como exemplo prático da interação de idéias, vou compartilhar uma história. Há muito tempo, pediram-me para recomendar um tamanho de amostra para confirmar uma limpeza ambiental. Isso foi durante a fase de pré-limpeza antes de termos dados. Meu plano pedia a análise de mais ou menos 1000 amostras que seriam obtidas durante a limpeza (para estabelecer que solo suficiente havia sido removido em cada local) para avaliar a média e a variação pós-limpeza da concentração de contaminantes. Então (para simplificar bastante), eu disse que usaríamos uma fórmula de manual - com base na potência e no tamanho de teste especificados - para determinar o número de amostras de confirmação independentes que seriam usadas para provar que a limpeza foi bem-sucedida.
O que tornou isso memorável foi que, após a limpeza, a fórmula dizia usar apenas 3 amostras. De repente, minha recomendação não parecia muito credível!
O motivo de precisar de apenas 3 amostras é que a limpeza foi agressiva e funcionou bem. Reduziu as concentrações médias de contaminantes para cerca de 100, aproximadamente 100 ppm, consistentemente abaixo da meta de 500 ppm.
No final, essa abordagem funcionou porque obtivemos as 1000 amostras anteriores (embora com menor qualidade analítica: elas apresentavam maior erro de medição) para estabelecer que as suposições estatísticas feitas eram de fato boas para este site. É assim que o potencial de erro do tipo III foi tratado.
Mais uma reviravolta para sua consideração: sabendo que a agência reguladora nunca aprovaria o uso de apenas 3 amostras, eu recomendei a obtenção de 5 medições. Estes deveriam ser feitos de 25 amostras aleatórias de todo o site, compostas em grupos de 5. Estatisticamente, haveria apenas 5 números no teste final de hipóteses, mas alcançamos maior poder para detectar um "hot spot" isolado, tomando 25 amostras. Isso destaca a importante relação entre quantos números são usados no teste e como eles foram obtidos. Há mais na tomada de decisão estatística do que apenas algoritmos com números!
Para meu alívio eterno, os cinco valores compostos confirmaram que o objetivo de limpeza foi atingido.
fonte
Outra consequência de uma pequena amostra é o aumento do erro do tipo 2.
Nunnally demonstrou no artigo "O lugar da estatística na psicologia", 1960, que pequenas amostras geralmente falham em rejeitar uma hipótese nula pontual. Essas hipóteses são hipóteses com alguns parâmetros iguais a zero e são conhecidas por serem falsas na experiência considerada.
Pelo contrário, amostras muito grandes aumentam o erro do tipo 1 porque o valor p depende do tamanho da amostra, mas o nível de significância alfa é fixo. Um teste nessa amostra sempre rejeitará a hipótese nula. Leia "A insignificância do teste de significância estatística", de Johnson e Douglas (1999), para ter uma visão geral do problema.
Esta não é uma resposta direta à pergunta, mas essas considerações são complementares.
fonte