Sou totalmente novo nas estatísticas e no campo dos intervalos de confiança. Portanto, isso pode ser muito trivial ou até parecer estúpido. Eu apreciaria se você pudesse me ajudar a entender ou me indicar alguma literatura / texto / blog que explique isso melhor.
Vejo em vários sites de notícias como CNN, Fox News, Politico etc. sobre suas pesquisas sobre a corrida presidencial dos EUA em 2012. Cada agência realiza algumas pesquisas e relata algumas estatísticas do formulário:
CNN: A popularidade de Obama é de X% com margem de erro de +/- x1%. Tamanho da amostra 600. FOX: A popularidade de Obama é Y% com margem de erro de +/- y1%. Tamanho da amostra 800. XYZ: A popularidade de Obama é de Z% com margem de erro +/- z1%. Tamanho da amostra 300.
Aqui estão minhas dúvidas:
Como decido em quem confiar? Deveria ser baseado no intervalo de confiança ou devo assumir que, como a Fox tem um tamanho de amostra maior, sua estimativa é mais confiável? Existe uma relação implícita entre os itnervals de confiança e o tamanho da amostra, de modo que a especificação de um evita a necessidade de especificar o outro?
Posso determinar o desvio padrão dos intervalos de confiança? Em caso afirmativo, é válido sempre ou válido apenas para determinadas distribuições (como gaussiana)?
Existe uma maneira de "mesclar" ou "combinar" as três estimativas acima e obter minha própria estimativa junto com os intervalos de confiança? Que tamanho de amostra devo reivindicar nesse caso?
Mencionei a CNN / Fox apenas para explicar melhor o meu exemplo. Não tenho intenção de iniciar um debate entre democratas e republicanos aqui.
Por favor, ajude-me a entender os problemas que levantei.
Este é um tópico enorme, mas basicamente existem dois problemas:
1) Precisão - isso é determinado pelo tamanho da amostra. Amostras maiores fornecem estimativas mais precisas com erro padrão mais baixo e intervalos de confiança mais apertados
2) Viés - que, em estatística, não tem necessariamente as conotações negativas que possui em outros lugares. Nas pesquisas, eles tentam obter uma amostra aleatória de XXXX (às vezes prováveis eleitores, às vezes eleitores registrados). Mas eles não. Algumas pesquisas usam apenas linhas terrestres. Diferentes grupos de pessoas têm mais ou menos probabilidade de responder. Grupos diferentes têm mais ou menos probabilidade de simplesmente desligar.
Assim, todos os pesquisadores avaliam suas respostas. Ou seja, eles tentam ajustar seus resultados para coincidir com fatos conhecidos sobre os eleitores. Mas todos fazem isso de maneira um pouco diferente. Portanto, mesmo com os mesmos dados de entrada de pesquisa, eles fornecerão números diferentes.
Em quem confiar? Bem, se você olhar para o trabalho de Nate Silver no 538, ele tem classificações de quão precisos os pesquisadores foram nas eleições anteriores. Mas isso não significa que eles serão igualmente precisos agora.
fonte
Isso ocorre na área de amostragem da pesquisa. Em princípio, os métodos funcionam porque a randomização é usada. Aqui estão as coisas que podem diferir nas pesquisas com base em decisões subjetivas.
Quadro de amostragem. De que grupo de eleitores devo retirar minha amostra?
Como lidar com a volatilidade do eleitor indeciso que pode mudar de opinião sobre Obama x Romney com base na pesquisa de ontem ou nas próximas semanas?
Peter tocou no viés. A pesquisa de resumo literário de 1936 foi um desastre. Ele escolheu o candidato republicano em vez de FDR porque o quadro de amostragem foi baseado na seleção aleatória de números de telefone. Em 1936, apenas a classe média alta e os ricos possuíam telefones. Esse grupo foi dominado por republicanos que tendem a votar no candidato republicano. Roosevelt venceu por um deslizamento de terra, recebendo votos dos pobres e da classe média, que tendiam a ser muito um grupo de democratas! Isso ilustra o viés devido à escolha sutilmente ruim de um quadro de amostragem.
A amostragem da pesquisa trata de populações finitas. O tamanho da população é N. Digamos que uma amostra aleatória simples seja retirada dessa população e tenha o tamanho n. Por simplicidade, suponha que apenas Obama e Romney estejam concorrendo. A proporção de votos que Obama obteria nesse quadro de amostragem é uma média de variáveis binárias (digamos 1 se o entrevistado escolher Obama e 0 para Romney). A variação da média da amostra para essa variável é [p (1-p) / n] [Nn] / N, em que p é a verdadeira proportina da população que escolheria Obama. [Nn] / N é a correção finita da população. na maioria das pesquisas, N é muito maior que N e o correto pode ser ignorado. Olhando p (1-p) / n, vemos que a variação diminui com n. Portanto, se n for grande, o intervalo de confiança em um determinado nível de confiança ficará pequeno.
Outros pesquisadores de amostragem e estatísticos do US Census Bureau têm à disposição essas ferramentas estatísticas e utilizam métodos mais complexos e precisos (amostra aleatória em cluster e amostragem aleatória estratificada para mencionar alguns métodos).
Quando suas suposições de modelagem são válidas, os métodos funcionam notavelmente bem. A pesquisa de saída é um excelente exemplo. No dia da eleição, você verá as redes projetarem com precisão o vencedor em quase todos os estados, muito antes de uma contagem quase final. Isso ocorre porque a variabilidade do dia de pré-seleção se foi. Eles sabem historicamente como as pessoas tendiam a votar e podem determinar os distritos selecionados de maneira a evitar preconceitos. As redes às vezes diferem. Isso pode ser devido a uma competição para escolher o vencedor à frente da mentalidade dos outros. Em casos raros, também pode ocorrer porque a votação é extremamente próxima (por exemplo, eleição presidencial de 2000 na Flórida).
Espero que isso lhe dê uma imagem mais clara do que acontece. Não vemos mais erros grosseiros como "Dewey derrota Truman" em 1948 ou o fiasco da Literary Digest de 1936. Mas a estatística não é perfeita e os estatísticos nunca podem dizer que estão certos.
fonte