Em uma eleição, como podemos ter certeza de que um candidato será o vencedor?

Houve uma eleição geral em que eu moro ontem e a rede de televisão começou a chamar vencedores muito antes de todas as votações serem abertas.

Eles deram certo em todas as contas, e eu não estou realmente surpreso que eles tenham. Eu sei que as estatísticas são absolutamente viáveis. Ainda assim, estou curioso. Assumindo:

abrimos fora do cédulas; $i$ $j$
temos candidatos cujas atual pontuações são ; $n$ $c_1, c_2, c_3, ... c_n$

Como podemos calcular a certeza com que o candidato principal é o vencedor?

elections zneak
fonte

Lembre-se de que eles geralmente têm acesso a dados abrangentes de pesquisas de saída e a outros dados que eles podem usar para prever o resultado. Eles precisam apenas de confirmação suficiente da contagem recebida para garantir que não estejam errados devido a um erro de amostragem. Certamente, há complexidades envolvidas e as contagens de entrada geralmente são uma amostra tendenciosa, mas as pesquisas de saída ajudam bastante a resolver alguns desses problemas.

gung - Restabelece Monica

Se "com certeza" deve ser considerado literalmente, as estatísticas podem (quase?) Nunca responder a uma pergunta "com certeza". Mas podemos dar respostas com um alto nível de confiança de que a resposta estará correta. (Em outras palavras, se conseguirmos os nossos dados e fazer nossas análises corretamente, podemos dizer coisas como: "Minha resposta só vai estar errado sobre x% do tempo.")

Emil Friedman

Respostas:

A principal dificuldade na prática não é a incerteza estatística de que um golpe de sorte teria dado a um candidato mais votos. A principal dificuldade, por uma ordem de magnitude ou mais, é que as cédulas abertas quase nunca são uma amostra imparcial dos votos expressos. Se você ignorar esse efeito, receberá o famoso erro "Dewey Derrota Truman", que ocorreu com uma grande amostra tendenciosa.

Na prática, os eleitores que preferem um candidato a outro não são igualmente distribuídos por região, por trabalharem durante o dia ou por serem destacados no exterior; portanto, votariam por cédulas ausentes. Essas não são pequenas diferenças.

Penso que o que as organizações de notícias fazem agora é dividir a população em grupos e usar os resultados para estimar como cada grupo votou (incluindo a participação). Estes podem ser baseados em modelos e suposições anteriores baseadas em eleições anteriores, não apenas nos dados dessas eleições. Isso pode não levar em consideração esquisitices, como as cédulas de borboletas de Palm Beach.

Douglas Zare
fonte

Na Austrália, até cerca de 10 a 15 anos atrás, os partidos conservadores geralmente começavam fortes no início da contagem, com os partidos progressistas voltando tarde. As redes de TV provavelmente sabiam o que estava acontecendo, mas a variabilidade provavelmente contribuiu para mais drama. Tudo mudou quando um analista chamado Antony Green começou a usar os resultados de estande por estande para explicar o fato de que pequenos estandes nas áreas rurais tendem a realizar suas contagens e resultados mais cedo e tendem a votar de forma mais conservadora. Famoso, Antony chamou corretamente um resultado de eleição horas antes de alguém mais usá-lo.

Bogdanovist

Os resultados de cabine por cabine dos anos anteriores podem ser usados para calibrar com precisão as estimativas do resultado total.

Peter Ellis

@DouglasZare Acho que você quer dizer que as cédulas atualmente abertas não são uma amostra aleatória.

Michael R. Chernick

@ Michael Chernick: Qual é a diferença entre uma amostra não aleatória e uma amostra tendenciosa? en.wikipedia.org/wiki/Sampling_bias parece usá-los como sinônimos.

Douglas Zare

@DouglasZare Vejo no seu link que a wikipedia usa amostra tendenciosa como sinônimo de não aleatória. Eu acho que é uma má escolha. A tendência geral refere-se à expectativa de um estimador não ser igual à verdadeira avaliação do parâmetro. No contexto da amostragem, uma amostra não aleatória não implica viés para uma estimativa específica. Pode ou não levar a viés.

Michael R. Chernick

Na amostragem de pesquisa, é necessário o erro padrão da estimativa de proporção. Depende mais de i do que j. Também exige que as cédulas abertas sejam selecionadas aleatoriamente. Se p for a verdadeira proporção final do candidato A, a variação da estimativa será

\frac{(1 - \frac{Eu}{j}) p (1 - p)}{Eu}

$\frac{(1-\frac{i}{j})p(1-p)}{i}$

$(1-\frac{i}{j})$ é chamado fator de correção de população finita. Para estimar essa variação, a estimativa usual para p é substituída por p na fórmula. O erro padrão é obtido pela raiz quadrada. Ao prever um vencedor, o pesquisador pode usar a estimativa mais ou menos 3 erros padrão. Se 0,5 não estiver contido no intervalo, o candidato A será declarado vencedor se 0,5 estiver abaixo do limite inferior, ou seu oponente será declarado vencedor se 0,5 estiver acima do limite superior. É claro que isso apenas diz com muita confiança quem será o vencedor caso 0,5 esteja fora do intervalo. O nível de confiança é 0,99 se você usar três erros padrão (com base na aproximação normal ao binômio). Se 0,5 estiver dentro do intervalo, ninguém será declarado vencedor e o pesquisador espera que mais dados sejam acumulados.

Ao fazer uma projeção, os pesquisadores podem selecionar uma amostra aleatória estratificada dos votos acumulados para evitar possíveis vieses que podem ocorrer se alguém olhar para todas as cédulas contadas. O problema de analisar todos os votos acumulados é que certos distritos terminam a contagem em relação a outros e podem não ser representativos da população.

O artigo aqui fornece uma boa cobertura do problema e várias referências.

Assinalou-se que os votos acumulados podem fornecer estimativas tendenciosas de proporções, porque os distritos que ainda não notificaram são aqueles que tendem a favorecer o partido com o candidato que está à direita ou as cédulas ausentes provavelmente favorecem o candidato que está à direita. e esses votos são contados por último. Os pesquisadores sofisticados, como Harris e Gallup, não caem nessas armadilhas. A análise simples da construção de intervalos de confiança com base nos votos acumulados que descrevi é apenas um fator usado. Esses pesquisadores têm muito mais informações à sua disposição. Eles têm pesquisas realizadas pouco antes da eleição e os padrões de votação de todos os distritos e votos ausentes nas eleições nos últimos anos.

Portanto, se houver vieses claros que possam levar a uma eleição fechada na direção oposta, os pesquisadores reconhecerão isso e impedirão de projetar um vencedor.

Nos EUA, as cédulas de ausência são predominantemente de militares estrangeiros e estudantes universitários que estão na escola fora de casa. Embora os militares tendam a ser mais conservadores e com probabilidade de votar nos republicanos, os colegas estudantes tendem a ser mais liberais e com maior probabilidade de votar nos democratas. Todas essas considerações são levadas em consideração.

O cuidado e a sofisticação das pesquisas modernas são a razão pela qual erros grosseiros, como a pesquisa da Literary Digest de 1936 ou a concessão prematura do jornal de Chicago das eleições de 1948 para Dewey, não ocorreram desde então.

Michael R. Chernick
fonte

Embora a analogia implícita com a amostragem de pesquisa seja adequada, essa pergunta não adiciona fatores complicadores? Primeiro é a possibilidade de mais de dois candidatos. A segunda é que esse é um problema de decisão sequencial : diferentemente do pesquisador, que normalmente especifica o tamanho da pesquisa e toma uma decisão com base na amostra, a cada momento a rede tem uma amostra crescente e deve decidir se convoca a eleição ou espera Mais Informações. Os aplicativos de pesquisa citados aqui não parecem aplicáveis a essa situação dinâmica. E por que a rede usaria 3 SE? (Sua reputação está em jogo.)

whuber

@whuber Concordo que existem complicações que provavelmente não são consideradas na prática. Escolhi por simplicidade um caso de dois candidatos em que a maioria é uma vitória. Eu acho que essa é a situação que o OP tinha em mente. Vencer por pluralidade com três ou mais candidatos envolveria mostrar que o "candidato vencedor tinha uma proporção maior que seus oponentes. Certamente, se você fizer a votação mais de uma vez, a natureza seqüencial da amostragem deve ser levada em consideração. Não tenho certeza de que é.

Michael R. Chernick

Minha escolha de 3 SE foi porque acho que os pesquisadores querem ter "muita certeza" de que estão certos antes de declarar um vencedor. Portanto, acho que 3 seria usado acima de 2. Se você deseja um risco de erro ainda menor, pode ser maior que 3. Usei a fórmula do erro padrão para dar ao OP uma idéia de como o nível de certeza depende de i e j de uma maneira simples. A complicação da situação tornaria o resultado mais complicado e a dependência I iej não seria tão claramente vista.

Michael R. Chernick 5/09/12

n

$n$

2

$2$

Como estou recebendo vários votos negativos, alguém explicaria a justificativa para isso?

Michael R. Chernick