Como podemos julgar a precisão das previsões de Nate Silver?

Em primeiro lugar, ele dá probabilidade de resultados. Assim, por exemplo, suas previsões para a eleição nos EUA são atualmente 82% Clinton vs 18% Trump.

Agora, mesmo que Trump vença, como sei que não foram apenas os 18% das vezes que ele deveria ter vencido?

O outro problema é que suas probabilidades mudam com o tempo. Então, em 31 de julho, foram quase 50-50 entre Trump e Clinton.

Minha pergunta é, considerando que ele tem uma probabilidade diferente todos os dias para o mesmo evento futuro com o mesmo resultado, como posso medir a precisão dele para cada dia em que ele fez uma previsão com base nas informações disponíveis até aquele dia?

forecasting prediction validation accuracy scoring-rules Sopa de dinossauro
fonte

Eu suspeito que não podemos. É preciso um padrão-ouro para fazer essa avaliação, e o melhor que temos são apenas as observações de eleições anteriores que são difíceis de comparar (já que todas as eleições incluem métodos alternativos de amostragem e comportamento dos eleitores). Mas eu não sou especialista em pesquisas eleitorais, por isso estou deixando isso como um comentário e não uma resposta :)

Tal Galili

@ TalGalili: podemos dizer pelo menos alguma coisa, usando regras de pontuação - assim como, por exemplo, podemos dizer algo sobre parâmetros não observáveis que estimamos em regressões.

S. Kolassa - Restabelece Monica

Essa é provavelmente uma "regra de pontuação", mas, para n eventos, multiplique sua probabilidade de ocorrência desses eventos e crie a enésima raiz para obter um tipo médio de taxa de previsão (presumimos que ele nunca faça previsões de 0%). Você pode considerar cada probabilidade diária como uma previsão separada.

barrycarter

Por que as probabilidades não podem mudar com o tempo? Em um evento esportivo, as probabilidades não mudam sempre que um gol é marcado ou um home run é atingido?

Rodrigo de Azevedo

O modelo de Silver fornece muito mais do que apenas uma estimativa de probabilidade - fornece uma margem de vitória estimada, derivada das probabilidades de vitória e margens de vitória de cada um dos 50 estados. Portanto, está fornecendo uma estimativa pontual e margem de erro para 50 medidas diferentes (embora com alguma - provavelmente alto grau de correlação entre elas), não apenas prevendo um único resultado binário.

Micah

Respostas:

As previsões probabilísticas (ou, como também são conhecidas, previsões de densidade) podem ser avaliadas usando regras de pontuação , ou seja, funções que mapeiam uma previsão de densidade e um resultado observado para uma chamada pontuação, que é minimizada na expectativa se a previsão da densidade de fato, é a verdadeira densidade a ser prevista. Regras de pontuação adequadas são regras de pontuação que são minimizadas em expectativa apenas pela verdadeira densidade futura.

Existem várias regras de pontuação adequadas disponíveis, começando com Brier (1950, Monthly Weather Review ) no contexto de previsão meteorológica probabilística. Czado et al. (2009, Biometrics ) fornecem uma visão geral mais recente para o caso discreto. Gneiting & Katzfuss (2014, Revisão Anual das Estatísticas e sua Aplicação ) fornecem uma visão geral da previsão probabilística em geral - o Gneiting, em particular, tem sido muito ativo no avanço da causa de regras de pontuação adequadas.

No entanto, as regras de pontuação são um pouco difíceis de interpretar e realmente ajudam a comparar múltiplas previsões probabilísticas - aquela com a pontuação mais baixa é melhor. Até a variação da amostragem, ou seja, é sempre melhor ter muitas previsões para avaliar, cujas pontuações gostaríamos de média.

Como incluir a "atualização" das previsões de Silver ou de outras pessoas é uma boa pergunta. Podemos usar regras de pontuação para comparar "instantâneos" de diferentes previsões em um único momento, ou podemos até olhar as previsões probabilísticas de Silver ao longo do tempo e calcular pontuações em cada momento. Seria de esperar que a pontuação diminuísse cada vez mais (ou seja, as previsões de densidade melhorem cada vez mais) quanto mais próximo o resultado real.

S. Kolassa - Restabelecer Monica
fonte

Outra maneira de dizer isso: a probabilidade prevista individual de um evento único não pode ser avaliada sozinha, mas os analistas podem ser avaliados (por funções de pontuação).

Kjetil b halvorsen

Pois "é minimizado na expectativa", acho que a questão principal é a expectativa sobre qual conjunto? Tomamos todas as previsões de Nate Silver? Somente aqueles que superaram as eleições presidenciais? Não sei se há uma única resposta aqui. Para comparar diferentes previsores, as previsões sobre qualquer conjunto comum de eventos podem ser razoáveis.

GeoMatt22

@ GeoMatt22 - ele tem metodologia razoavelmente semelhante para outras eleições, por isso pode ser válido para agregar todas as previsões eleitorais

DVK

No livro de Nate Silver, The Signal and the Noise, ele escreve o seguinte, o que pode fornecer algumas dicas para sua pergunta:

Um dos testes mais importantes de uma previsão - eu diria que é o mais importante - é chamado de calibração. De todas as vezes que você disse que havia 40% de chance de chuva, com que frequência a chuva realmente ocorreu? Se, a longo prazo, realmente chover cerca de 40% das vezes, isso significa que suas previsões foram bem calibradas. Se acabou chovendo apenas 20% das vezes, ou 60% das vezes, não estavam.

Então, isso levanta alguns pontos. Antes de mais nada, como você corretamente aponta, você realmente não pode fazer nenhuma inferência sobre a qualidade de uma única previsão pelo resultado do evento que está prevendo. O melhor que você pode fazer é ver o desempenho do seu modelo ao longo de muitas previsões.

Outra coisa importante a se pensar é que as previsões fornecidas por Nate Silver não são um evento em si, mas a distribuição de probabilidade do evento. Assim, no caso da corrida presidencial, ele está estimando a distribuição de probabilidade de Clinton, Trump ou Johnson vencendo a corrida. Portanto, neste caso, ele está estimando uma distribuição multinomial.

Mas ele está realmente prevendo a corrida em um nível muito mais granular. Suas previsões estimam as distribuições de probabilidade da porcentagem de votos que cada candidato receberá em cada estado. Portanto, se considerarmos três candidatos, isso pode ser caracterizado por um vetor aleatório de comprimento 51 * 3 e por valores no intervalo [0, 1], sujeito à restrição de que as proporções somam 1 para as proporções dentro de um estado. O número 51 é porque outros são 50 estados + DC (e, na verdade, acho que são mais alguns, porque alguns estados podem dividir seus votos nas faculdades eleitorais), e o número 3 é devido ao número de candidatos.

Agora você não tem muitos dados para avaliar suas previsões - ele só forneceu previsões para as últimas três eleições que eu conheço (houve mais?). Portanto, não acho que exista uma maneira de avaliar razoavelmente o modelo dele, a menos que você realmente tenha o modelo em mãos e possa avaliá-lo usando dados simulados. Mas ainda existem algumas coisas interessantes que você pode ver. Por exemplo, acho que seria interessante observar com que precisão ele previu as proporções de votação estado a estado em um determinado momento, por exemplo, uma semana após a eleição. Se você repetir isso por vários períodos, por exemplo, uma semana, um mês, seis meses e um ano, poderá fornecer uma exposição bastante interessante para as previsões dele. Uma ressalva importante: os resultados são altamente correlacionados entre os estados dentro de uma eleição, então você não pode realmente dizer que possui 51 estados * 3 instâncias de previsão independentes das eleições (ou seja, se o modelo subestimar o desempenho dos candidatos em um estado, também tenderá a subestimar em outros estados) . Mas talvez eu pense assim dessa maneira, apenas para que você tenha dados suficientes para fazer algo significativo.

dpritch
fonte

Para qualquer previsão única que você não possa, mais do que podemos dizer se a afirmação "esta moeda tem 60% de chance de aparecer cara" está quase correta de um único lançamento.

No entanto, você pode avaliar sua metodologia em muitas previsões - para uma determinada eleição, ele faz muitas previsões, não apenas da corrida presidencial geral, mas muitas previsões relacionadas ao voto do presidente e de muitas outras raças (casa, senado, governador). e assim por diante), e ele também usa metodologias amplamente semelhantes ao longo do tempo.

Existem várias maneiras de fazer essa avaliação (algumas são bastante sofisticadas), mas podemos ver algumas maneiras relativamente simples de entender. Por exemplo, você pode dividir as previsões da probabilidade de uma vitória em bandas de, por exemplo, (50-55%, 55-65% e assim por diante) e, em seguida, ver qual a proporção das previsões nessa faixa; a proporção de previsões de 50 a 55% que funcionou deve estar entre 50 e 55%, dependendo de onde estava a média (mais uma margem para variação aleatória *).

Portanto, por essa abordagem (ou várias outras abordagens), você pode ver se a distribuição dos resultados foi consistente com as previsões em uma eleição ou em várias eleições (se bem me lembro, acho que as previsões dele têm sido mais frequentemente corretas do que deveriam). , o que sugere que seus erros padrão foram, em média, superestimados).

* temos que ter cuidado em como avaliar isso, embora porque as previsões não sejam independentes.

Glen_b -Reinstate Monica
fonte