Como a eleição é um evento único, não é um experimento que pode ser repetido. Então, o que exatamente significa tecnicamente a afirmação "Hillary tem 75% de chance de ganhar" ? Estou buscando uma definição estatisticamente correta, não intuitiva ou conceitual.
Sou um fã amador de estatísticas que está tentando responder a essa pergunta que surgiu em uma discussão. Tenho certeza de que há uma boa resposta objetiva, mas não consigo chegar a ela mesma ...
probability
prediction
politics
pitosalas
fonte
fonte
Respostas:
Todas as respostas fornecidas até o momento são úteis, mas não são muito estatisticamente precisas, por isso vou tentar. Ao mesmo tempo, darei uma resposta geral em vez de focar nesta eleição.
A primeira coisa a ter em mente quando estamos tentando responder perguntas sobre eventos do mundo real, como Clinton vencendo a eleição, em oposição a problemas de matemática inventados como tirar bolas de várias cores de uma urna, é que não há ' • uma maneira razoável e única de responder à pergunta e, portanto, não uma resposta razoável e única. Se alguém apenas disser "Hillary tem 75% de chance de ganhar" e não continuar a descrever seu modelo de eleição, os dados que eles usaram para fazer suas estimativas, os resultados de sua validação de modelo, suas suposições de fundo, se eles está se referindo ao voto popular ou ao voto eleitoral etc., então eles realmente não disseram o que querem dizer, muito menos forneceram informações suficientes para você avaliar se a previsão deles é boa. Além disso, não é '
Então, quais são alguns procedimentos que um estatístico pode usar para estimar as chances de Clinton? De fato, como eles podem enquadrar o problema? Em um nível alto, existem várias noções de probabilidade em si, duas das mais importantes são freqüentistas e bayesianas.
Numa visão freqüentista , uma probabilidade representa a frequência limitadora de um evento em muitos ensaios independentes do mesmo experimento, como na lei de grandes números (forte ou fraco). Embora qualquer eleição em particular seja um evento único, seu resultado pode ser visto como uma amostra de uma infinita população de eventos históricos e hipotéticos, que podem abranger todas as eleições presidenciais americanas ou todas as eleições em todo o mundo em 2016, ou qualquer outra coisa. Uma chance de 75% de uma vitória de Clinton significa que, se é uma sequência de resultados (0 ou 1) de eleições independentes que são totalmente equivalentes a essa eleição no que diz respeito ao nosso modelo, então a média da amostra de converge em probabilidade para 0,75 comoX 1 , X 2 , … , X n nX1,X2,… X1,X2,…,Xn n vai para o infinito.
Em uma visão bayesiana , uma probabilidade representa um grau de credibilidade ou credibilidade (que pode ou não ser uma crença real, dependendo se você é um bayesiano subjetivista). Uma chance de 75% de uma vitória em Clinton significa que ela tem 75% de credibilidade. As credibilidades, por sua vez, podem ser escolhidas livremente (com base nas crenças preexistentes de um modelo ou analista) dentro das restrições das leis básicas de probabilidade (como o teorema de Bayes , e o fato de que a probabilidade de um evento conjunto não pode exceder a probabilidade marginal de qualquer um dos itens). os eventos do componente). Uma maneira de resumir essas leis é que, se você fizer apostas no resultado de um evento, oferecendo chances aos jogadores de acordo com suas credibilidades, nenhum jogador poderá construir um livro holandêscontra você, ou seja, um conjunto de apostas que garante que você perderá dinheiro, não importa como o evento realmente funcione.
Independentemente de você ter uma visão freqüentista ou bayesiana sobre probabilidade, ainda há muitas decisões a serem tomadas sobre como analisar os dados e estimar a probabilidade. Possivelmente, o método mais popular é baseado em modelos de regressão paramétricos, como a regressão linear. Nesse cenário, o analista escolhe uma família paramétrica de distribuições (isto é, medidas de probabilidade ) que é indexada por um vetor de números chamado parâmetros. Cada resultado é uma variável aleatória independente extraída dessa distribuição, transformada de acordo com as covariáveis, que são valores conhecidos (como a taxa de desemprego) que o analista deseja usar para prever o resultado. O analista escolhe estimativas dos valores dos parâmetros usando os dados e um critério de ajuste do modelo, como mínimos quadradosou probabilidade máxima . Usando essas estimativas, o modelo pode produzir uma previsão do resultado (possivelmente apenas um valor único, possivelmente um intervalo ou outro conjunto de valores) para qualquer valor das covariáveis. Em particular, pode prever o resultado de uma eleição. Além dos modelos paramétricos, existem modelos não paramétricos (ou seja, modelos definidos por uma família de distribuições indexadas com um vetor de parâmetro infinitamente longo) e também métodos para decidir valores preditos que não usam nenhum modelo pelo qual os dados foram gerados. , como classificadores do vizinho mais próximo e florestas aleatórias .
Criar previsões é uma coisa, mas como você sabe se elas são boas? Afinal, previsões suficientemente imprecisas são piores que inúteis. Testar previsões faz parte da prática mais ampla de validação de modelo, ou seja, quantificar a qualidade de um determinado modelo para um determinado objetivo. Dois métodos populares para validar previsões são a validação cruzada e a divisão dos dados em subconjuntos de treinamento e teste antes de ajustar qualquer modelo. Na medida em que as eleições incluídas nos dados são representativas da eleição presidencial dos EUA em 2016, as estimativas de precisão preditiva que obtemos com a validação de previsões nos informarão quão precisa será a nossa previsão para a eleição presidencial dos EUA em 2016.
fonte
Quando os estatísticos querem prever um resultado binário (Hillary vence vs Hillary não vence), eles imaginam que o universo está jogando uma moeda imaginária - Cara, Hillary vence; caudas, ela perde. Para alguns estatísticos, a moeda representa seu grau de crença no resultado; para outros, a moeda representa o que pode acontecer se reerguermos a eleição nas mesmas circunstâncias repetidas vezes. Filosoficamente falando, é difícil saber o que queremos dizer quando falamos de eventos futuros incertos, mesmo antes de arrastar números para ele. Mas podemos ver de onde vem o número.
Neste ponto da eleição, temos uma sequência de resultados da pesquisa. Estes são da forma: 1000 pessoas foram entrevistadas em, digamos, em Ohio. 40% apoiam Trump, 39% apoiam Hillary, 21% estão indecisos. Seriam realizadas pesquisas semelhantes nas eleições anteriores para os respectivos candidatos democratas, republicanos (e outros partidos). Nos anos anteriores, também existem resultados. Você deve saber que, digamos, candidatos com 40% dos votos em uma pesquisa realizada em julho, venceram 8 das 10 eleições anteriores. Ou os resultados podem dizer que, em 7 das 10 eleições, os democratas tomaram Ohio. Talvez você saiba como Ohio se compara ao Texas (talvez nunca escolha o mesmo candidato) - talvez tenha informações sobre como o voto indeciso se divide - e talvez tenha modelos interessantes do que acontece quando um candidato começa a "surgir".
Portanto, quando você considera as eleições anteriores, pode dizer que a moeda da eleição já foi lançada várias vezes. A mesma eleição não está sendo repetida a cada 4 anos, mas podemos fingir que é assim. Com todas essas informações, os pesquisadores constroem modelos complexos para prever o resultado para este ano.
A chance de vitória de Hillary de 75% é relativa ao nosso estado de conhecimento "hoje". Está dizendo que uma candidata com o tipo de resultado da enquete que obteve "agora", nos estados em que a possui, e dadas as tendências de suas pesquisas durante a campanha, vence a eleição em 3 anos eleitorais em 4. Um mês a partir de agora, sua probabilidade de vitória terá mudado, porque o modelo será baseado no estado das pesquisas de opinião em agosto.
Os EUA não tiveram um número estatisticamente grande de eleições em sua história, muito menos desde o início das pesquisas. Também não podemos ter certeza de que as tendências das pesquisas, digamos, dos anos 70, ainda se aplicam. Então é tudo um pouco desonesto.
O ponto principal é que Hillary deve começar a trabalhar em seu discurso de posse.
fonte
Quando estatísticos dizem isso, não estão se referindo à margem de vitória ou à parte dos votos. Eles estão realizando um grande número de simulações da eleição e contando a porcentagem de votos que cada candidato ganha. Para muitos modelos presidenciais robustos, eles têm previsões para cada estado. Alguns são próximos e, se a corrida for disputada várias vezes, os dois candidatos poderão vencer. Como os intervalos de previsão muitas vezes se sobrepõem a uma margem de vitória de 0, não é uma resposta binária, mas uma simulação nos diz mais precisamente o que esperar.
A página de metodologia do FiveThirtyEight pode ajudar a entender um pouco mais o que está por trás: http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/
fonte
Há um episódio de rádio freakonomics que é muito relevante para esta questão (em geral, não nas especificidades de uma eleição). Nele, Stephen Dubner entrevista o líder de um projeto de uma agência de defesa dos Estados Unidos para determinar a melhor maneira de prever eventos políticos globais.
Então eles discutem o que não fazer
Em seguida, o episódio aborda as metodologias que os analistas mais bem-sucedidos usaram para estimar essas probabilidades, defendendo uma abordagem bayesiana informal
O episódio é chamado de Como ser menos terrível em prever o futuro e é uma escuta muito divertida. Encorajo-vos a verificar se você está interessado neste tipo de coisa!
fonte
A eleição de 2016 é de fato um evento único. Mas o mesmo acontece com o lançamento de uma moeda ou o lançamento de um dado.
Quando alguém afirma que sabe que um candidato tem 75% de chance de ganhar, não está prevendo o resultado. Eles estão alegando que sabem a forma do dado.
O resultado da eleição não pode invalidar isso. Mas se o modelo que eles usam para chegar a 75% for testado em muitas eleições, pode ser demonstrado que ele tem um valor preditivo limitado. Ou pode nascer como valioso.
Obviamente, uma vez que um preditor valioso é conhecido pelos candidatos, eles podem mudar seu comportamento e o modelo pode se tornar irrelevante. Ou pode ser totalmente desproporcional. Veja o que acontece em Iowa.
fonte
Quando alguém diz que "Hillary tem 75% de chance de ganhar", significa que, se você ofereceu uma aposta em que uma pessoa ganha 25 dólares se Hillary ganha e a outra pessoa ganha 75 dólares se Hillary não ganha, eles consideram que uma aposta justa e não tem nenhum motivo específico para preferir um ou outro lado.
Essas porcentagens geralmente vêm dos mercados de previsão. Eles resumem todas as informações disponíveis e geralmente superam os métodos analíticos de previsão da maioria dos eventos.
Os mercados de previsão oferecem às pessoas a oportunidade de apostar se um evento específico ocorrerá ou não. Os pagamentos são definidos por negociação entre as pessoas de ambos os lados da proposição. Geralmente, as pessoas que têm conhecimento especial sobre uma proposição tentarão aproveitar esse conhecimento para ganhar dinheiro, o que tem o efeito colateral de vazar essas informações.
Por exemplo, suponha que exista um mercado de previsão sobre se uma celebridade em particular viverá até o final deste ano. O público sabe a idade da celebridade e qualquer um pode procurar a probabilidade básica de que a celebridade morra até o final do ano. Se isso fosse tudo o que se sabia, você esperaria que as pessoas estivessem dispostas a apostar de um lado ou de outro dessa proposição com aproximadamente essa probabilidade.
Agora, suponha que alguém soubesse que a celebridade estava com problemas de saúde, mas a ocultava. Ou até dizer que muitas pessoas sabiam que a família da celebridade tinha um histórico de doenças cardíacas que reduziriam suas chances de sobreviver. As pessoas com essas informações estarão dispostas a tomar um lado dessa proposição, fazendo com que a taxa se ajuste assim como os compradores aumentam o preço das ações e os vendedores o pressionam.
Em outras palavras, quando as chances são muito baixas, as pessoas que desejam lucrar as pressionam. E quando estão muito altos, as pessoas que buscam lucro as pressionam. O preço da aposta reflete, em última análise, a sabedoria coletiva de todos nas probabilidades da proposição que ocorre, assim como todos os preços refletem a sabedoria coletiva sobre os custos e valores das coisas.
fonte
A questão principal é como você atribui uma probabilidade a um evento único. A resposta é que você desenvolve um modelo pelo qual ele não é mais único. Eu acho que um exemplo mais fácil é qual é a probabilidade de o presidente morrer no cargo? Você pode ver o presidente como uma pessoa de uma certa idade, como uma pessoa de uma certa idade e sexo. Etc ... cada modelo fornece uma previsão diferente ... a priori, não existe um modelo correto ... cabe ao estatístico selecionar qual modelo é o mais apropriado.
fonte
Dado que as pesquisas mostram uma corrida muito acirrada, os 75% podem ou não ser precisos.
Você está perguntando o que significa, não como eles calcularam isso. A implicação é que (se ignorarmos mais alguém, exceto Clinton e seu principal adversário), você precisará apostar US $ 3 para obter um retorno de US $ 4 se ela vencer. Como alternativa, uma aposta de US $ 1 no outro corredor retornaria US $ 4 se ele vencesse.
Minha resposta faz uma pequena distinção, entre a chance real de qualquer candidato vencer e o que as pessoas (jogadores ou probabilidades) estão esperando. Eu suspeito que, quando você vê números como este, por exemplo, 75%, está vendo os números dos criadores de probabilidades, quando vê 49 a 48%, está vendo os resultados da pesquisa.
fonte
Se eles estão fazendo o que é certo, algo acontece aproximadamente três quartos desses momentos, quando eles dizem que teve 75% de chance de acontecer. (ou, geralmente, a mesma ideia adaptada a todas as previsões percentuais)
É possível atribuir mais significado do que isso, dependendo de nossas opiniões filosóficas e do quanto acreditamos nos modelos, mas esse ponto de vista pragmático é um denominador comum mais baixo - pelo menos, os métodos estatísticos tentam (embora possivelmente como um lado). em vez de diretamente) fazer previsões que obedeçam a esse ponto de vista pragmático.
fonte