Tenho referências que recomendam considerar um tamanho de amostra mínimo de 20 para distribuição de ajuste de dados.
Existe algum sentido nisso?
obrigado
sample-size
fm3c2007
fonte
fonte
Respostas:
Muito disso depende da distribuição esperada e qual é a sua pergunta de pesquisa. Como regra geral, você deve ter cuidado com as regras práticas. Se você conhece a distribuição esperada, execute algumas simulações de tamanhos diferentes e determine com que frequência as simulações de amostra refletem a distribuição real. Isso deve fornecer algumas orientações sobre o tamanho final da amostra necessário.
fonte
Eu pensei que o número mágico do tamanho da amostra é 1.000. É o que a maioria das pesquisas nacionais dos EUA possui, para produzir uma margem de erro de cerca de 3%:
Com apenas 20 observações, tecnicamente não é possível obter valores muito altos de assimetria e curtose (normalizados pelos desvios padrão da amostra, é claro): Se você está ajustando uma distribuição pelo método dos momentos, obviamente não pode ajustar, digamos, uma distribuição lognormal com uma variação razoavelmente típica de logs igual a 1 (distribuições de renda em países com desigualdade de renda moderada a alta; EUA, Brasil, África do Sul, A Rússia tem uma variação mais alta da renda do log), pois possui uma curtose surpreendentemente grande de 111. É claro que seria tolo ajustar uma distribuição lognormal pelo método dos momentos, mas eu só queria mostrar que algumas distribuições do mundo real provavelmente será mais complicado do que o que pode ser descrito com 20 observações.
fonte
Não. Não remotamente.
Pense assim: se você tivesse um espaço bilionário (humanidade) e retirasse 20 amostras usando qualquer método (20 pessoas), poderia usar as informações obtidas para entender razoavelmente bem todas as pessoas no planeta? Não remotamente. Existem 100 bilhões de estrelas na galáxia Via Láctea. Ao escolher (aleatoriamente) 20 deles, você consegue entender toda a astronomia galáctica? De jeito nenhum.
Em um espaço 1-d, existem algumas heurísticas, principalmente regras válidas que podem ajudar, que descrevem quantas medidas você deseja fazer. Eles incluem graus variados de utilidade e justificativa, mas, em certo sentido, são mais bem defendidos do que "20". Eles incluem "5 medições por variável em sua equação de ajuste", "pelo menos 35 amostras de uma função de densidade gaussiana" e "pelo menos 300 amostras de uma função binomial". Estatísticos reais e não um nerd-bombardeiro como eu serão capazes de associar intervalos de confiança e incertezas particulares dos primeiros princípios e sem uma calculadora.
If you use the rule of "5 measurements per parameter in your fit equation" and you want to fit the cumulative density of a 2 dimensionally curved bi-cubic surface in terms of distribution of heights you are going to have an underlying system that is∫∫a3r3+a2r2+a1r+a0a1r+a0dr , a ratio of a 5th order polynomial to a cubic. It will have 6+4=10 coefficients. If you are trying to fit your 10 parameter values using 2 measurements per parameter, or by using 20 measurements, then you will be violating this heuristic. This heuristic recommends a minimum of 10*5=50 measurements.
Lembre-se de que "melhor" é uma idéia sem sentido, sem ter uma "medida de bondade". Qual é o melhor caminho? Se você estiver indo para o seu destino, talvez seja extremamente longo e agradável. Se você estiver indo para a sua própria coroação, talvez curta e magnífica. Se você está caminhando pelo deserto, é legal e com sombra. Qual é o "melhor" número de amostras? É tão incrivelmente dependente do seu problema que ele não pode começar a ser respondido com autoridade antes disso. Todos eles? Quantas você puder? Aqueles só fazem um pouco de sentido. Sim, é como estar parcialmente morto ou grávida. Ser parcialmente sem sentido é uma consequência de um problema muito sub-definido.
Se você está tentando prever com precisão o fluxo de ar em um avião? Você pode precisar de vários milhões de medições para entrar no estádio. Se você quer saber a sua altura, um ou dois podem fazer o trabalho.
Isso não traz à tona os pontos importantes de "estender o espaço" e "amostrar em locais que minimizam a variação nas estimativas de parâmetros", mas a pergunta sugeria que uma resposta em nível mais recente seria relevante. Essas coisas exigem saber mais sobre a natureza do problema antes que possam ser implementadas.
Nota: editado para melhorar por sugestões.
fonte
Perhaps for the context where you're carrying out t-tests or ANOVAR - a pretty common context in basic statistical applications - it's around the sample size you need for each group in order to be able to have much confidence in each group's mean's being approximately normally distributed (according to the central limit theorem) when the distribution can be assumed to be more or less unimodal & not extremely peaky. Twenty & not nineteen or twenty-one because it's a round number.
fonte
Check Russ Lenth's Power and Sample Size Page for some articles on the subject (in the Advice section in the middle of the page).
O número mínimo de indivíduos em sua amostra varia muito de acordo com o tamanho da população, o número de dimensões (se você estiver dividindo os dados em categorias) e medidas (se você estiver tomando medidas contínuas sobre os indivíduos da amostra) que você está tomando, o tamanho de seu universo, a técnica de análise que você pretende usar (este é um ponto muito importante - a técnica é definida durante o planejamento do estudo ou durante o desenho experimental, never after), and complexity shown by previous studies.
E 20 não é suficiente para nenhuma pesquisa séria fora dos assuntos de "doenças raras" e "psicologia experimental" (psych, como Popper definiu em seu trabalho).
Refinando a resposta com base nos comentários abaixo:
And 20 is not enough for any serious research outside the subjects of "rare diseases" and "experimental psychology" (psych as Popper defined in his work) that involves fitting a probability distribution.
And no, you should not keep poisoning people to get to a large sample size. Common Sense and Sequential Tests order you to stop.
fonte