A Austrália está atualmente tendo uma eleição e, compreensivelmente, a mídia relata novos resultados de pesquisas políticas diariamente. Em um país de 22 milhões, que porcentagem da população precisaria ser amostrada para obter um resultado estatisticamente válido?
É possível que o uso de uma amostra muito grande possa afetar os resultados ou a validade estatística aumenta monotonicamente com o tamanho da amostra?
fonte
Suponha que você queira saber qual porcentagem de pessoas votaria em um candidato em particular (digamos, , observe que, por definição, π está entre 0 e 100). Você amostra N eleitores aleatoriamente para descobrir como eles votariam e sua pesquisa com esses N eleitores indica que a porcentagem é p . Portanto, você gostaria de estabelecer um intervalo de confiança para a porcentagem verdadeira.π π N N p
Se você assumir que é normalmente distribuído (uma suposição que pode ou não ser justificada dependendo de quão grande é N ), seu intervalo de confiança para π seria da seguinte forma: C I = [ p - k ∗ s d ( p ) , p + k ∗ s d ( p ) ] onde kp N π
Do ponto de vista da pesquisa, você deseja que a largura do seu intervalo de confiança seja 'baixa'. Geralmente, os pesquisadores de pesquisas trabalham com a margem de erro que é basicamente metade do IC. Em outras palavras, .MoE=k∗sd(p)
Aqui é como nós iria sobre cálculo : Por definição, p = Σ X i / N onde, X i = 1 se eleitor i vota no candidato e 0 caso contrário.sd(p) p=∑Xi/N Xi=1 i 0
fonte
Como generalização grosseira, sempre que você provar uma fração das pessoas em uma população, obterá uma resposta diferente do que se você provar o mesmo número novamente (mas possivelmente pessoas diferentes).
Portanto, se você quiser descobrir quantas pessoas na Austrália têm> = 30 anos e se a fração verdadeira (Deus nos disse) é precisamente de 0,4, e se perguntarmos a 100 pessoas, o número médio que podemos esperar digamos que eles são> = 30 é 100 x 0,4 = 40 e o desvio padrão desse número é +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 ou 4,9% (distribuição binomial).
Como essa raiz quadrada está lá, quando o tamanho da amostra aumenta 100 vezes, o desvio padrão diminui 10 vezes. Portanto, em geral, para reduzir a incerteza de uma medição como essa em um fator de 10, você precisa amostrar 100 vezes mais pessoas. Portanto, se você perguntar a 100 x 100 = 10000 pessoas, o desvio padrão subirá para 49 ou, como porcentagem, para 0,49%.
fonte