Probabilidade de um único evento futuro na vida real: O que significa quando eles dizem que "Hillary tem 75% de chance de ganhar"?

79

Como a eleição é um evento único, não é um experimento que pode ser repetido. Então, o que exatamente significa tecnicamente a afirmação "Hillary tem 75% de chance de ganhar" ? Estou buscando uma definição estatisticamente correta, não intuitiva ou conceitual.

Sou um fã amador de estatísticas que está tentando responder a essa pergunta que surgiu em uma discussão. Tenho certeza de que há uma boa resposta objetiva, mas não consigo chegar a ela mesma ...

pitosalas
fonte
4
Como as pesquisas não fazem estimativas probabilísticas e sem contexto adicional, parece que essa afirmação se baseia nos resultados atuais de um dos mercados de previsão, por exemplo, o Mercado Eletrônico de Iowa (veja tippie.uiowa.edu/iem ). Veja a página de Metodologia ou qualquer um dos muitos trabalhos sobre mercados de previsão para explicações mais detalhadas.
Mike Hunter
13
Uma questão-chave aqui é se podemos anexar probabilidades a eventos únicos (ou seja, pontuais), em que não podemos aplicar probabilidades empíricas da maneira como "se eu rolar um dado justo muitas vezes, a proporção de vezes que eu rolar um seis se aproximará de um sexto ". Mas há um argumento de que o mero grau de crença subjetivo ainda deve se comportar na prática como uma "probabilidade" - mais tecnicamente, deve obedecer aos axiomas da probabilidade. Portanto, uma abordagem filosófica dessa questão pode fazer referência ao chamado argumento do livro holandês .
Silverfish
19
75% das coisas com 75% de chance de acontecer acontecerão.
user253751
2
Depende da fonte da declaração; em alguns casos, refere-se a uma probabilidade em algum modelo, por exemplo (como nas avaliações de probabilidade em fivethirtyeight.com), mas em outros casos, ela se relaciona a algum outro contexto, pode significar outra coisa.
Glen_b
3
Eu li que, nas pesquisas, o resultado esperado de Clinton é vencer, mas o intervalo de confiança dos números é tal que há 25% de chance de que o resultado real não seja o mesmo que o esperado .
21716 JimmyB

Respostas:

60

Todas as respostas fornecidas até o momento são úteis, mas não são muito estatisticamente precisas, por isso vou tentar. Ao mesmo tempo, darei uma resposta geral em vez de focar nesta eleição.

A primeira coisa a ter em mente quando estamos tentando responder perguntas sobre eventos do mundo real, como Clinton vencendo a eleição, em oposição a problemas de matemática inventados como tirar bolas de várias cores de uma urna, é que não há ' • uma maneira razoável e única de responder à pergunta e, portanto, não uma resposta razoável e única. Se alguém apenas disser "Hillary tem 75% de chance de ganhar" e não continuar a descrever seu modelo de eleição, os dados que eles usaram para fazer suas estimativas, os resultados de sua validação de modelo, suas suposições de fundo, se eles está se referindo ao voto popular ou ao voto eleitoral etc., então eles realmente não disseram o que querem dizer, muito menos forneceram informações suficientes para você avaliar se a previsão deles é boa. Além disso, não é '

Então, quais são alguns procedimentos que um estatístico pode usar para estimar as chances de Clinton? De fato, como eles podem enquadrar o problema? Em um nível alto, existem várias noções de probabilidade em si, duas das mais importantes são freqüentistas e bayesianas.

  • Numa visão freqüentista , uma probabilidade representa a frequência limitadora de um evento em muitos ensaios independentes do mesmo experimento, como na lei de grandes números (forte ou fraco). Embora qualquer eleição em particular seja um evento único, seu resultado pode ser visto como uma amostra de uma infinita população de eventos históricos e hipotéticos, que podem abranger todas as eleições presidenciais americanas ou todas as eleições em todo o mundo em 2016, ou qualquer outra coisa. Uma chance de 75% de uma vitória de Clinton significa que, se é uma sequência de resultados (0 ou 1) de eleições independentes que são totalmente equivalentes a essa eleição no que diz respeito ao nosso modelo, então a média da amostra de converge em probabilidade para 0,75 comoX 1 , X 2 , , X n nX1,X2,X1,X2,,Xnn vai para o infinito.

  • Em uma visão bayesiana , uma probabilidade representa um grau de credibilidade ou credibilidade (que pode ou não ser uma crença real, dependendo se você é um bayesiano subjetivista). Uma chance de 75% de uma vitória em Clinton significa que ela tem 75% de credibilidade. As credibilidades, por sua vez, podem ser escolhidas livremente (com base nas crenças preexistentes de um modelo ou analista) dentro das restrições das leis básicas de probabilidade (como o teorema de Bayes , e o fato de que a probabilidade de um evento conjunto não pode exceder a probabilidade marginal de qualquer um dos itens). os eventos do componente). Uma maneira de resumir essas leis é que, se você fizer apostas no resultado de um evento, oferecendo chances aos jogadores de acordo com suas credibilidades, nenhum jogador poderá construir um livro holandêscontra você, ou seja, um conjunto de apostas que garante que você perderá dinheiro, não importa como o evento realmente funcione.

Independentemente de você ter uma visão freqüentista ou bayesiana sobre probabilidade, ainda há muitas decisões a serem tomadas sobre como analisar os dados e estimar a probabilidade. Possivelmente, o método mais popular é baseado em modelos de regressão paramétricos, como a regressão linear. Nesse cenário, o analista escolhe uma família paramétrica de distribuições (isto é, medidas de probabilidade ) que é indexada por um vetor de números chamado parâmetros. Cada resultado é uma variável aleatória independente extraída dessa distribuição, transformada de acordo com as covariáveis, que são valores conhecidos (como a taxa de desemprego) que o analista deseja usar para prever o resultado. O analista escolhe estimativas dos valores dos parâmetros usando os dados e um critério de ajuste do modelo, como mínimos quadradosou probabilidade máxima . Usando essas estimativas, o modelo pode produzir uma previsão do resultado (possivelmente apenas um valor único, possivelmente um intervalo ou outro conjunto de valores) para qualquer valor das covariáveis. Em particular, pode prever o resultado de uma eleição. Além dos modelos paramétricos, existem modelos não paramétricos (ou seja, modelos definidos por uma família de distribuições indexadas com um vetor de parâmetro infinitamente longo) e também métodos para decidir valores preditos que não usam nenhum modelo pelo qual os dados foram gerados. , como classificadores do vizinho mais próximo e florestas aleatórias .

Criar previsões é uma coisa, mas como você sabe se elas são boas? Afinal, previsões suficientemente imprecisas são piores que inúteis. Testar previsões faz parte da prática mais ampla de validação de modelo, ou seja, quantificar a qualidade de um determinado modelo para um determinado objetivo. Dois métodos populares para validar previsões são a validação cruzada e a divisão dos dados em subconjuntos de treinamento e teste antes de ajustar qualquer modelo. Na medida em que as eleições incluídas nos dados são representativas da eleição presidencial dos EUA em 2016, as estimativas de precisão preditiva que obtemos com a validação de previsões nos informarão quão precisa será a nossa previsão para a eleição presidencial dos EUA em 2016.

Kodiologist
fonte
Gosto muito desta resposta, apontando que havia dois pontos de vista comuns que eu esperava ver. Eu acho que menos teria sido mais embora.
25816 Mike Wise
4
Já existem algumas respostas concisas. Eu queria tentar uma mais completa.
Kodiologist
7
Não acho que a visão frequentista seja sustentável. Um evento como uma eleição é inerentemente não aleatório. Se você repetir a eleição um milhão de vezes sob exatamente as mesmas condições, obterá o mesmo resultado um milhão de vezes. Introduzimos artificialmente a aleatoriedade em nossos modelos para compensar nosso conhecimento incompleto das condições.
276 Stefan
6
Essa é uma questão não incontroversa na filosofia da estatística. Minha opinião é de que nenhum modelo é literalmente verdadeiro, mas alguns modelos são mais úteis que outros.
Kodiologist
32

Quando os estatísticos querem prever um resultado binário (Hillary vence vs Hillary não vence), eles imaginam que o universo está jogando uma moeda imaginária - Cara, Hillary vence; caudas, ela perde. Para alguns estatísticos, a moeda representa seu grau de crença no resultado; para outros, a moeda representa o que pode acontecer se reerguermos a eleição nas mesmas circunstâncias repetidas vezes. Filosoficamente falando, é difícil saber o que queremos dizer quando falamos de eventos futuros incertos, mesmo antes de arrastar números para ele. Mas podemos ver de onde vem o número.

Neste ponto da eleição, temos uma sequência de resultados da pesquisa. Estes são da forma: 1000 pessoas foram entrevistadas em, digamos, em Ohio. 40% apoiam Trump, 39% apoiam Hillary, 21% estão indecisos. Seriam realizadas pesquisas semelhantes nas eleições anteriores para os respectivos candidatos democratas, republicanos (e outros partidos). Nos anos anteriores, também existem resultados. Você deve saber que, digamos, candidatos com 40% dos votos em uma pesquisa realizada em julho, venceram 8 das 10 eleições anteriores. Ou os resultados podem dizer que, em 7 das 10 eleições, os democratas tomaram Ohio. Talvez você saiba como Ohio se compara ao Texas (talvez nunca escolha o mesmo candidato) - talvez tenha informações sobre como o voto indeciso se divide - e talvez tenha modelos interessantes do que acontece quando um candidato começa a "surgir".

Portanto, quando você considera as eleições anteriores, pode dizer que a moeda da eleição já foi lançada várias vezes. A mesma eleição não está sendo repetida a cada 4 anos, mas podemos fingir que é assim. Com todas essas informações, os pesquisadores constroem modelos complexos para prever o resultado para este ano.

A chance de vitória de Hillary de 75% é relativa ao nosso estado de conhecimento "hoje". Está dizendo que uma candidata com o tipo de resultado da enquete que obteve "agora", nos estados em que a possui, e dadas as tendências de suas pesquisas durante a campanha, vence a eleição em 3 anos eleitorais em 4. Um mês a partir de agora, sua probabilidade de vitória terá mudado, porque o modelo será baseado no estado das pesquisas de opinião em agosto.

Os EUA não tiveram um número estatisticamente grande de eleições em sua história, muito menos desde o início das pesquisas. Também não podemos ter certeza de que as tendências das pesquisas, digamos, dos anos 70, ainda se aplicam. Então é tudo um pouco desonesto.

O ponto principal é que Hillary deve começar a trabalhar em seu discurso de posse.

Placidia
fonte
1
Ela ainda tem o discurso de aceitação da indicação para passar primeiro.
WBT
26

Quando estatísticos dizem isso, não estão se referindo à margem de vitória ou à parte dos votos. Eles estão realizando um grande número de simulações da eleição e contando a porcentagem de votos que cada candidato ganha. Para muitos modelos presidenciais robustos, eles têm previsões para cada estado. Alguns são próximos e, se a corrida for disputada várias vezes, os dois candidatos poderão vencer. Como os intervalos de previsão muitas vezes se sobrepõem a uma margem de vitória de 0, não é uma resposta binária, mas uma simulação nos diz mais precisamente o que esperar.

A página de metodologia do FiveThirtyEight pode ajudar a entender um pouco mais o que está por trás: http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/

a.powell
fonte
17

Há um episódio de rádio freakonomics que é muito relevante para esta questão (em geral, não nas especificidades de uma eleição). Nele, Stephen Dubner entrevista o líder de um projeto de uma agência de defesa dos Estados Unidos para determinar a melhor maneira de prever eventos políticos globais.

Isso também ajuda muito a saber mais sobre política do que a maioria das pessoas. Eu diria que são condições quase necessárias para se sair bem. Mas eles não são suficientes, porque há muitas pessoas que são muito inteligentes e de mente fechada. Muitas pessoas são muito inteligentes e pensam que é impossível anexar probabilidades a eventos únicos .

Então eles discutem o que não fazer

se você faz esse tipo de pergunta, a maioria das pessoas diz: “Como você poderia atribuir probabilidades ao que parecem ser eventos históricos únicos?” Simplesmente não parece haver nenhuma maneira de fazer isso. O melhor que podemos fazer é usar verbos vagos, fazer previsões de verbos vagos. Podemos dizer coisas como: “Bem, isso pode acontecer. Isso pode acontecer. Isso pode acontecer. ”E dizer que algo pode acontecer não significa muito.

Em seguida, o episódio aborda as metodologias que os analistas mais bem-sucedidos usaram para estimar essas probabilidades, defendendo uma abordagem bayesiana informal

Então, mesmo sabendo nada sobre o ditador africano ou o país, digamos que nunca ouvi falar desse ditador, nunca ouvi falar desse país, e apenas olho a taxa básica e digo: "hmm, parece cerca de 87%. ”Essa seria minha estimativa inicial de palpite. Então a pergunta é: "O que eu faço?" Bem, então começo a aprender algo sobre o país e o ditador. E se eu descobrir que o ditador em questão tem 91 anos e tem câncer de próstata avançado, devo ajustar minha probabilidade . E se eu descobrir que há tumultos na capital e há indícios de golpes militares à vista, devo ajustar novamente minha probabilidade . Mas começar com a probabilidade de taxa básica é uma boa maneira de, pelo menos, garantir que você estará no estádio de plausibilidade inicialmente.

O episódio é chamado de Como ser menos terrível em prever o futuro e é uma escuta muito divertida. Encorajo-vos a verificar se você está interessado neste tipo de coisa!

Matthew Drury
fonte
3
+1. Em um post antigo , descrevi essa abordagem com um exemplo em execução. Eu pretendi fazê-lo de uma maneira neutra em relação ao debate bayesiano versus freqüentista, indicando que os métodos bayesianos não são o único meio de estimar probabilidades, fazer previsões ou fornecer informações úteis sobre eventos aparentemente únicos. Tentei identificar exatamente qual papel a probabilidade desempenha nessas análises e, implicitamente, enfatizar a necessidade de estimar probabilidades com precisão (em vez de apenas inventá-las de alguma maneira "não informativa").
whuber
1
Relacionada a esta discussão está a chamada controvérsia "mãos quentes". Em um artigo exclusivo intitulado Surpreendido pelas falácias dos jogadores e das mãos quentes? , Miller e Sanjuro oferecem evidências convincentes de que a literatura está errada há décadas ao negar a existência de "mãos quentes". A literatura histórica foi baseada na probabilidade incondicional dos ensaios de iid Bernoulli, enquanto a probabilidade condicional de uma sequência finita dos mesmos ensaios confirma a intuição das mãos quentes. Da mesma forma, nas eleições, pode-se tratar essa eleição como resultado de uma sequência de resultados condicionalmente probabilísticos.
Mike Hunter
15

A eleição de 2016 é de fato um evento único. Mas o mesmo acontece com o lançamento de uma moeda ou o lançamento de um dado.

Quando alguém afirma que sabe que um candidato tem 75% de chance de ganhar, não está prevendo o resultado. Eles estão alegando que sabem a forma do dado.

O resultado da eleição não pode invalidar isso. Mas se o modelo que eles usam para chegar a 75% for testado em muitas eleições, pode ser demonstrado que ele tem um valor preditivo limitado. Ou pode nascer como valioso.

Obviamente, uma vez que um preditor valioso é conhecido pelos candidatos, eles podem mudar seu comportamento e o modelo pode se tornar irrelevante. Ou pode ser totalmente desproporcional. Veja o que acontece em Iowa.

candied_orange
fonte
7
+1 em "Eles alegam que conhecem a forma do dado".
WBT 25/07
@WBT, não, isso é completamente a mensagem errada. Os 75% não têm nada a ver com probabilidades (físicas) que (presume-se) governam eventos aleatórios, como rolagem de dados. Eles querem dizer que têm um grau de certeza de 75% #
3139
1
@innisfree A metáfora ainda é útil. Embora reconheça pelos seus comentários sobre outras respostas que você não concorda (e você pode postar outra resposta), 75% é alguém que afirma que a distribuição de probabilidade do resultado é igual à de um dado de quatro lados (piramidal) no qual três dos quatro lados são rotulados como "Hillary". A metáfora flui um pouco melhor se você considerar "forma" para incluir também os rótulos.
WBT
6

Quando alguém diz que "Hillary tem 75% de chance de ganhar", significa que, se você ofereceu uma aposta em que uma pessoa ganha 25 dólares se Hillary ganha e a outra pessoa ganha 75 dólares se Hillary não ganha, eles consideram que uma aposta justa e não tem nenhum motivo específico para preferir um ou outro lado.

Essas porcentagens geralmente vêm dos mercados de previsão. Eles resumem todas as informações disponíveis e geralmente superam os métodos analíticos de previsão da maioria dos eventos.

Os mercados de previsão oferecem às pessoas a oportunidade de apostar se um evento específico ocorrerá ou não. Os pagamentos são definidos por negociação entre as pessoas de ambos os lados da proposição. Geralmente, as pessoas que têm conhecimento especial sobre uma proposição tentarão aproveitar esse conhecimento para ganhar dinheiro, o que tem o efeito colateral de vazar essas informações.

Por exemplo, suponha que exista um mercado de previsão sobre se uma celebridade em particular viverá até o final deste ano. O público sabe a idade da celebridade e qualquer um pode procurar a probabilidade básica de que a celebridade morra até o final do ano. Se isso fosse tudo o que se sabia, você esperaria que as pessoas estivessem dispostas a apostar de um lado ou de outro dessa proposição com aproximadamente essa probabilidade.

Agora, suponha que alguém soubesse que a celebridade estava com problemas de saúde, mas a ocultava. Ou até dizer que muitas pessoas sabiam que a família da celebridade tinha um histórico de doenças cardíacas que reduziriam suas chances de sobreviver. As pessoas com essas informações estarão dispostas a tomar um lado dessa proposição, fazendo com que a taxa se ajuste assim como os compradores aumentam o preço das ações e os vendedores o pressionam.

Em outras palavras, quando as chances são muito baixas, as pessoas que desejam lucrar as pressionam. E quando estão muito altos, as pessoas que buscam lucro as pressionam. O preço da aposta reflete, em última análise, a sabedoria coletiva de todos nas probabilidades da proposição que ocorre, assim como todos os preços refletem a sabedoria coletiva sobre os custos e valores das coisas.

David Schwartz
fonte
2
É uma pena que nenhuma outra resposta mencione apostas, esta é essencialmente a definição do que é uma probabilidade ... parece que todo mundo esqueceu.
Michael Le Barbier Grünewald
2
@ MichaelGrünewald: Não é bem assim. Embora seja possível ter chances de jogo que refletem probabilidades verdadeiras (como as que envolvem roletas ou jogos de cartas), não é isso que é. As probabilidades de apostas para quem vencerá as eleições são semelhantes aos preços das ações ... são baseadas principalmente na maneira como as pessoas se sentem.
Robert Harvey
@RobertHarvey O ponto é que as probabilidades expressam uma crença subjetiva (a palavra expectativa deve nos lembrar disso). Então, sim, eu posso construir modelos, informações agregadas usando as maneiras mais inteligentes, mas no final, tudo o que posso afirmar é “Dada toda a informação disponível posso acessar a, eu acredito que estas apostas são justos”. Não existe "probabilidades verdadeiras" - o cálculo da probabilidade nos ajuda a calcular nossas crenças consequentemente. A menos que você queira definir "probabilidades verdadeiras".
Michael Le Barbier Grünewald
@RobertHarvey Você pode argumentar que tudo se baseia na maneira como as pessoas se sentem. Se faço um argumento matemático, é porque sinto que está correto. As pessoas são livres para decidir quais chances aceitar para uma proposição apostada por qualquer método que desejem, arbitrário ou rigoroso. Em um bom método de previsão, há pessoas suficientes com informações que o resultado final transmite a sabedoria da multidão.
David Schwartz
4

A questão principal é como você atribui uma probabilidade a um evento único. A resposta é que você desenvolve um modelo pelo qual ele não é mais único. Eu acho que um exemplo mais fácil é qual é a probabilidade de o presidente morrer no cargo? Você pode ver o presidente como uma pessoa de uma certa idade, como uma pessoa de uma certa idade e sexo. Etc ... cada modelo fornece uma previsão diferente ... a priori, não existe um modelo correto ... cabe ao estatístico selecionar qual modelo é o mais apropriado.

seanv507
fonte
1
Embora tenha dado a resposta mais longa acima da minha marca de seleção "correta", também gosto muito dessa. Mover a questão para chances de morte do presidente no cargo esclarece. Obrigado a TODOS por toda a sua consideração!
Pitosalas
1
Há um quadro (estatística Bayesiana) para atribuição de probabilidades (graus de plausibilidade) a qualquer hipótese, incluindo resultados de eventos únicos
Innisfree
3

Dado que as pesquisas mostram uma corrida muito acirrada, os 75% podem ou não ser precisos.

Você está perguntando o que significa, não como eles calcularam isso. A implicação é que (se ignorarmos mais alguém, exceto Clinton e seu principal adversário), você precisará apostar US $ 3 para obter um retorno de US $ 4 se ela vencer. Como alternativa, uma aposta de US $ 1 no outro corredor retornaria US $ 4 se ele vencesse.

Minha resposta faz uma pequena distinção, entre a chance real de qualquer candidato vencer e o que as pessoas (jogadores ou probabilidades) estão esperando. Eu suspeito que, quando você vê números como este, por exemplo, 75%, está vendo os números dos criadores de probabilidades, quando vê 49 a 48%, está vendo os resultados da pesquisa.

JoeTaxpayer
fonte
2
E como o questionador está perguntando sobre o significado estatístico, observe que, embora isso geralmente não aconteça nas eleições, é possível prever um resultado "apertado", por exemplo, 52/48, mas você ainda tem 75% de confiança no vencedor sem se referir para Vegas por suas chances. Por exemplo, na final dos 100m masculinos das Olimpíadas, a margem de vitória será inferior a 4%, mas seu modelo estatístico pode prever um provável vencedor. É tudo sobre o intervalo de confiança nesse 52/48, que é grande o suficiente ao prever eleições que geralmente não se traduz em 75% de chance.
21816 Steve Jessop
1
Eu acho que a perspectiva de JoeTaxpayer é muito útil e pragmática (no sentido filosófico desse termo). É uma apresentação teórica da decisão um tanto imprecisa. É assim que as probabilidades de apostas parimutuel são definidas. Outras caracterizações podem ser "a sabedoria da multidão" ou um "preço baseado no mercado". É realmente aborda a questão, o que posso fazer com essa informação (supondo que eu acredito.)
Dwin
1
Não vi menção ao colégio eleitoral. POTUS é eleito através do colégio eleitoral. Então, se Clinton obtém apenas 51% dos 51% do colégio eleitoral, e nada do resto, então, com apenas ~ 26% do voto popular, ela vence. Assim, os resultados das pesquisas, que geralmente não consideram o colégio eleitoral, às vezes estão errados.
27416 MikeP
2
As pesquisas do @MikeP não relatam uma chance de vitória, elas relatam, bem, resultados da pesquisa. Modelos que relatam chances de ganhar se valem de dados de pesquisas em vários estados e levam em consideração o colégio eleitoral - pelo menos, respeitáveis.
Hbbs
2

Se eles estão fazendo o que é certo, algo acontece aproximadamente três quartos desses momentos, quando eles dizem que teve 75% de chance de acontecer. (ou, geralmente, a mesma ideia adaptada a todas as previsões percentuais)

É possível atribuir mais significado do que isso, dependendo de nossas opiniões filosóficas e do quanto acreditamos nos modelos, mas esse ponto de vista pragmático é um denominador comum mais baixo - pelo menos, os métodos estatísticos tentam (embora possivelmente como um lado). em vez de diretamente) fazer previsões que obedeçam a esse ponto de vista pragmático.


fonte
Não, o significado é claramente epistemológico / bayesiano, 75% de grau de crença. Ninguém está imaginando pseudo-experimentos nos quais o resultado da eleição é uma variável aleatória.
innisfree 28/07
@ Innisfree: Se metade das vezes você tem um grau de confiança de 75% em algo que acaba errado, você precisa recalibrar como está medindo sua crença! Não há necessidade de envolver experiências imaginadas, apenas uma medida objetiva de quantas vezes sua crença se transformou em realidade no passado.