Como você decide o tamanho da amostra ao pesquisar uma população grande?

15

A Austrália está atualmente tendo uma eleição e, compreensivelmente, a mídia relata novos resultados de pesquisas políticas diariamente. Em um país de 22 milhões, que porcentagem da população precisaria ser amostrada para obter um resultado estatisticamente válido?

É possível que o uso de uma amostra muito grande possa afetar os resultados ou a validade estatística aumenta monotonicamente com o tamanho da amostra?

brotchie
fonte

Respostas:

13

O tamanho da amostra não depende muito do tamanho da população, o que é contra-intuitivo para muitos.

A maioria das empresas de pesquisa usa 400 ou 1000 pessoas em suas amostras.

Há uma razão para isto:

Um tamanho de amostra de 400 fornecerá um intervalo de confiança de +/- 5% 19 vezes em 20 (95%)

Um tamanho de amostra de 1000 fornecerá um intervalo de confiança de +/- 3% 19 vezes em 20 (95%)

Quando você está medindo uma proporção perto de 50% de qualquer maneira.

Esta calculadora não é ruim:

http://www.raosoft.com/samplesize.html

Neil McGuigan
fonte
6
Mas note que tudo isso é baseado na amostragem de uma população homogênea. Se você possui uma população heterogênea (por exemplo, proporções diferentes para diferentes subgrupos, amostrando partes raras das populações), essa variação não é tão confiável. As estimativas que você está realmente calculando aqui são (eu acho) para uma população que sua amostra representa. A questão é: é essa população na qual você realmente está interessado?
probabilityislogic
9

Suponha que você queira saber qual porcentagem de pessoas votaria em um candidato em particular (digamos, , observe que, por definição, π está entre 0 e 100). Você amostra N eleitores aleatoriamente para descobrir como eles votariam e sua pesquisa com esses N eleitores indica que a porcentagem é p . Portanto, você gostaria de estabelecer um intervalo de confiança para a porcentagem verdadeira.ππNNp

Se você assumir que é normalmente distribuído (uma suposição que pode ou não ser justificada dependendo de quão grande é N ), seu intervalo de confiança para π seria da seguinte forma: C I = [ p - k s d ( p ) , p + k s d ( p ) ] onde kpNπ

CI=[pksd(p),  p+ksd(p)]
k é uma constante que depende da extensão de confiança desejada (ou seja, 95% ou 99%, etc.).

Do ponto de vista da pesquisa, você deseja que a largura do seu intervalo de confiança seja 'baixa'. Geralmente, os pesquisadores de pesquisas trabalham com a margem de erro que é basicamente metade do IC. Em outras palavras, . MoE=ksd(p)

Aqui é como nós iria sobre cálculo : Por definição, p = Σ X i / N onde, X i = 1 se eleitor i vota no candidato e 0 caso contrário.sd(p)p=Xi/NXi=1i0

Xi

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
sd(p)=π(1π)N
πsd(p)π=0.5
sd(p)=0.50.5/N=0.5/N
NN não precisa ser muito grande para obter um intervalo de confiança estreito .

k=1.96N=1000

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
NNπ=50%
Comunidade
fonte
2

Como generalização grosseira, sempre que você provar uma fração das pessoas em uma população, obterá uma resposta diferente do que se você provar o mesmo número novamente (mas possivelmente pessoas diferentes).

Portanto, se você quiser descobrir quantas pessoas na Austrália têm> = 30 anos e se a fração verdadeira (Deus nos disse) é precisamente de 0,4, e se perguntarmos a 100 pessoas, o número médio que podemos esperar digamos que eles são> = 30 é 100 x 0,4 = 40 e o desvio padrão desse número é +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 ou 4,9% (distribuição binomial).

Como essa raiz quadrada está lá, quando o tamanho da amostra aumenta 100 vezes, o desvio padrão diminui 10 vezes. Portanto, em geral, para reduzir a incerteza de uma medição como essa em um fator de 10, você precisa amostrar 100 vezes mais pessoas. Portanto, se você perguntar a 100 x 100 = 10000 pessoas, o desvio padrão subirá para 49 ou, como porcentagem, para 0,49%.

Mike Dunlavey
fonte