Digamos que eu tenho três fontes independentes e cada uma delas faz previsões para o clima de amanhã. O primeiro diz que a probabilidade de chuva amanhã é 0, depois o segundo diz que a probabilidade é 1 e, finalmente, o último diz que a probabilidade é de 50%. Eu gostaria de saber a probabilidade total dada essa informação.
Se aplicar o teorema da multiplicação para eventos independentes, recebo 0, o que não parece correto. Por que não é possível multiplicar as três se todas as fontes são independentes? Existe alguma maneira bayesiana de atualizar o anterior à medida que obtenho novas informações?
Nota: Isso não é lição de casa, é algo em que eu estava pensando.
probability
bayesian
pooling
model-averaging
forecast-combination
Biela Diela
fonte
fonte
Respostas:
Você pergunta sobre três coisas: (a) como combinar várias previsões para obter uma única previsão, (b) se a abordagem bayesiana pode ser usada aqui e (c) como lidar com probabilidades zero.
Combinar previsões é uma prática comum . Se você tiver várias previsões do que se calcular a média dessas previsões, a previsão combinada resultante deverá ser melhor em termos de precisão do que qualquer uma das previsões individuais. Para calculá-las, você pode usar a média ponderada, onde os pesos são baseados em erros inversos (ou seja, precisão) ou no conteúdo da informação . Se você tivesse conhecimento sobre a confiabilidade de cada fonte, poderia atribuir pesos proporcionais à confiabilidade de cada fonte, para que fontes mais confiáveis tenham maior impacto na previsão final combinada. No seu caso, você não tem nenhum conhecimento sobre a confiabilidade deles, de modo que cada uma das previsões tenha o mesmo peso e possa usar a média aritmética simples das três previsões
Como foi sugerido nos comentários de @AndyW e @ArthurB. , outros métodos além da média ponderada simples estão disponíveis. Muitos desses métodos são descritos na literatura sobre a média de previsões de especialistas, com os quais eu não estava familiarizado antes, então obrigado pessoal. Na média das previsões de especialistas, às vezes, queremos corrigir o fato de que os especialistas tendem a regredir para a média (Baron et al, 2013), ou tornar suas previsões mais extremas (Ariely et al, 2000; Erev et al, 1994). Para conseguir isso, pode-se usar transformações de previsões individuais , por exemplo, função logitpi
chances para o poder -ésimoa
onde , ou transformação mais geral da forma0<a<1
onde se nenhuma transformação for aplicada, se previsões individuais forem mais extremas, se previsões forem menos extremas, o que é mostrado na figura abaixo (ver Karmarkar, 1978; Baron et al, 2013 )a > 1 0 < a < 1a=1 a>1 0<a<1
Após a média dessas previsões de transformação (usando média aritmética, mediana, média ponderada ou outro método). Se as equações (1) ou (2) foram usadas, os resultados precisam ser transformados de volta usando logit inverso para (1) e probabilidades inversas para (2). Alternativamente, a média geométrica pode ser usada (ver Genest e Zidek, 1986; cf. Dietrich e List, 2014)
ou abordagem proposta por Satopää et al (2014)
onde são pesos. Na maioria dos casos, pesos iguais são usados, a menos que exista informação a priori que sugira outra opção. Tais métodos são usados na média de previsões de especialistas para corrigir subconfiança ou excesso de confiança. Em outros casos, você deve considerar se a transformação de previsões para mais ou menos extrema é justificada, pois pode fazer com que a estimativa agregada resultante caia fora dos limites marcados pela menor e pela maior previsão individual.w i = 1 / Nwi wi=1/N
Se você tem um conhecimento a priori sobre a probabilidade de chuva, pode aplicar o teorema de Bayes para atualizar as previsões, considerando a probabilidade a priori de chuva de maneira semelhante à descrita aqui . Também existe uma abordagem simples que pode ser aplicada, ou seja, calcular a média ponderada de suas previsões (como descrito acima) em que a probabilidade anterior é tratada como ponto de dados adicional com algum peso pré-especificado como neste exemplo do IMDB ( veja também fonte , ou aqui e aqui para discussão; cf. Genest e Schervish, 1985), ie π w πpi π wπ
Da sua pergunta, no entanto, não se segue que você tenha conhecimento a priori sobre o seu problema, portanto provavelmente usaria uniforme anterior, ou seja, assumiria a priori chance de chuva e isso realmente não muda muito no caso do exemplo que você forneceu .50%
Para lidar com zeros, existem várias abordagens diferentes possíveis. Primeiro, observe que chance de chuva não é um valor realmente confiável, pois diz que é impossível que chova. Problemas semelhantes costumam ocorrer no processamento de linguagem natural quando, em seus dados, você não observa alguns valores que possivelmente podem ocorrer (por exemplo, você conta frequências de letras e, em seus dados, algumas letras incomuns não ocorrem). Nesse caso, o estimador clássico de probabilidade, ou seja,0%
onde é um número de ocorrências de th valor (de categorias), dá-lhe se . Isso é chamado de problema de frequência zero . Para esses valores, você sabe que a probabilidade deles é diferente de zero (eles existem!); Portanto, essa estimativa está obviamente incorreta. Há também uma preocupação prática: multiplicar e dividir por zeros leva a zeros ou resultados indefinidos; portanto, zeros são problemáticos ao lidar com eles. i d p i = 0 n i = 0ni i d pi=0 ni=0
A correção fácil e comumente aplicada é adicionar constante às suas contagens, para queβ
A escolha comum para é , ou seja, a aplicação uniforme uniforme com base na regra de sucessão de Laplace , para a estimativa de Krichevsky-Trofimov ou para o estimador de Schurmann-Grassberger (1996). Observe, no entanto, que o que você faz aqui é aplicar informações fora de dados (anteriores) em seu modelo, para obter um sabor Bayesiano subjetivo. Ao usar essa abordagem, você deve se lembrar das suposições feitas e levá-las em consideração. O fato de termos um forte conhecimento a priori de que não deve haver nenhuma probabilidade zero em nossos dados justifica diretamente a abordagem bayesiana aqui. No seu caso, você não tem frequências, mas probabilidades, então você adicionaria algumasβ 1 1/2 1/d valor muito pequeno para corrigir zeros. Observe, no entanto, que em alguns casos essa abordagem pode ter consequências ruins (por exemplo, ao lidar com logs ), portanto, deve ser usada com cautela.
Schurmann, T. e P. Grassberger. (1996). Estimativa de entropia de sequências de símbolos. Caos, 6, 41-427.
Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS e Zauberman, G. (2000). Os efeitos da média da estimativa da probabilidade subjetiva entre e dentro dos juízes. Journal of Experimental Psychology: Applied, 6 (2), 130.
Baron, J., Mellers, BA, Tetlock, PE, Stone, E. e Ungar, LH (2014). Duas razões para tornar as previsões de probabilidade agregadas mais extremas. Decision Analysis, 11 (2), 133-145.
Erev, I., Wallsten, TS e Budescu, DV (1994). Excesso de confiança e subconfiança simultâneos: o papel do erro nos processos de julgamento. Revisão psicológica, 101 (3), 519.
Karmarkar, EUA (1978). Utilidade ponderada subjetivamente: uma extensão descritiva do modelo de utilidade esperado. Comportamento organizacional e desempenho humano, 21 (1), 61-72.
Turner, BM, Steyvers, M., Merkle, CE, Budescu, DV e Wallsten, TS (2014). Agregação de previsão via recalibração. Aprendizado de máquina, 95 (3), 261-289.
Genest, C. e Zidek, JV (1986). Combinando distribuições de probabilidade: uma crítica e uma bibliografia anotada. Statistical Science, 1 , 114–135.
Satopää, VA, Barão, J., Foster, DP, Mellers, BA, Tetlock, PE e Ungar, LH (2014). Combinando várias previsões de probabilidade usando um modelo de logit simples. International Journal of Forecasting, 30 (2), 344-356.
Genest, C. e Schervish, MJ (1985). Modelagem de julgamentos de especialistas para atualização bayesiana. The Annals of Statistics , 1198-1212.
Dietrich, F., e List, C. (2014). Conjunto de Opiniões Probabilísticas. (Não publicado)
fonte
Existem duas maneiras de pensar no problema. Uma é dizer que as fontes observam uma versão barulhenta da variável latente "chove / não chove".
Esse modelo funciona melhor se você estiver pensando em três pessoas dizendo se choveu ontem ou não. Na prática, sabemos que existe um componente aleatório irredutível no clima e, portanto, pode ser melhor assumir que a natureza escolhe primeiro uma probabilidade de chuva, que é ruidosamente observada pelas fontes, e depois vira uma moeda tendenciosa para decidir se ou não vai chover.
Nesse caso, a estimativa combinada pareceria muito mais com uma média entre as diferentes estimativas.
fonte
Na estrutura do Transferable Belief Model (TBM) , é possível combinar diferentes previsões usando, por exemplo, a "regra conjuntiva de combinação". Para aplicar essa regra, você precisa transformar as probabilidades das previsões em atribuições básicas de crença. Isso pode ser alcançado com o chamado princípio menos comprometido. Em R:
Para o segundo exemplo de três previsões independentes de 0,75, essa abordagem retorna um valor mais alto:
Isso não está muito longe da abordagem bayesiana mostrada na resposta de Arthur B.
fonte
fonte
Seus números de probabilidade de chuva são apenas metade da história, pois teríamos que moderar suas previsões com a probabilidade de serem precisas ao fazer suposições.
Como algo como chuva é mutuamente exclusivo (está chovendo ou não está, nesta configuração), eles não podem estar todos simultaneamente corretos com 75% de probabilidade, como sugeriu Karsten (acho difícil dizer com a confusão que ouvi sobre o que significa para encontrar "probabilidade combinada").
Levando em consideração suas habilidades individuais para prever o clima, poderíamos dar uma facada (a Thomas Bayes, como em um tiro geralmente cego no escuro) sobre qual a chance de chuva amanhã.
A estação 1 está correta em suas previsões em 60% das vezes, nos segundos 30% e na última estação em 10% das vezes.
E [chuva] = Px X + Py Y + Pz * Z é a forma que estamos vendo aqui:
(.6) (0) + (. 3) (1) + (. 1) (. 5) = E [chuva] = 35% de chance de chuva com precisão de previsão inventada.
fonte
Há muitas respostas complicadas dadas a essa pergunta, mas e a Média ponderada da variância inversa: https://en.wikipedia.org/wiki/Inverse-variance_weighting
A média ponderada da variância inversa parece muito simples de calcular e, como bônus, tem a menor variação entre todas as médias ponderadas.
fonte
Para combinar confiabilidade, minha fórmula é r1xr2xr3 ÷ (r1xr2xr3 + (1-r1) x (1-r2) x (1-r3). Portanto, para as 3 fontes de confiabilidade 75%, todas dizendo a mesma coisa, eu teria .75 ^ 3 ÷ (.75 ^ 3 + .25 ^ 3) => 96% de confiabilidade da resposta combinada
fonte