Entendo que, quando a amostragem de uma população finita e o tamanho da nossa amostra é superior a 5% da população, é necessário corrigir a média e o erro padrão da amostra usando esta fórmula:
Onde é o tamanho da população e é o tamanho da amostra.
Tenho 3 perguntas sobre esta fórmula:
- Por que o limite é definido em 5%?
- Como a fórmula foi derivada?
- Existem outros recursos online que explicam exaustivamente essa fórmula além deste artigo?
Respostas:
O limite é escolhido de forma a garantir a convergência da distribuição hipergeométrica ( é o seu SD), em vez de uma distribuição binomial (para amostragem com substituição), para uma distribuição normal ( este é o Teorema do Limite Central, veja, por exemplo, A Curva Normal, o Teorema do Limite Central e as Desigualdades para Variáveis Aleatórias de Markov e Chebychev . Em outras palavras, quando n / N ≤ 0,05 (ou seja, n não é 'muito grande' em comparação com N ), o CPF pode ser ignorado com segurança; é fácil ver como o fator de correção evolui com n variando para um N fixo : com NN- nN- 1----√ n / n≤ 0,05 n N n N , temos FPC = 0,9995 , quando n = 10 , enquanto FPC = 0,3162 quando n = 9 , 000 . Quando N → ∞ , o CPF se aproxima de 1 e estamos próximos da situação de amostragem com substituição (isto é, com uma população infinita).N= 10 , 000 FPC = .9995 n = 10 FPC = .3162 n = 9 , 000 N→ ∞
Para entender esses resultados, um bom ponto de partida é ler alguns tutoriais on-line sobre a teoria da amostragem, onde a amostragem é feita sem substituição ( amostragem aleatória simples ). Este tutorial on-line sobre estatística não paramétrica tem uma ilustração sobre como calcular a expectativa e a variação de um total.
Você notará que alguns autores usam vez de N - 1 no denominador do CPF; de fato, depende se você trabalha com a amostra ou estatística de população: para a variação, será N em vez de N - 1 se você estiver interessado em S 2 em vez de σ 2 .N N- 1 N N- 1 S2 σ2
Quanto às referências on-line, posso sugerir que você
fonte