Aritmética para atualização de probabilidades usando o teorema de Bayes

8

Essa pode ser uma pergunta elementar e é por isso que não consegui encontrá-la no Stackexchange ou no Mathoverflow, mas estou tendo problemas com a aritmética envolvida na atualização de probabilidades usando o teorema de Bayes para um problema no qual estou trabalhando.

Fundo:

Estou tentando fornecer previsões de probabilidade para eventos futuros que não têm ou têm poucos precedentes. Ao contrário da maioria da literatura e textos de Bayes, que usam distribuições conhecidas anteriormente para fornecer probabilidades de eventos futuros dentro de parâmetros semelhantes - minha situação é baseada na opinião de especialistas apenas com poucas ou nenhuma distribuição razoável para referência.

Exemplo:

A GM anunciou que está desenvolvendo um carro novo, mas não disse quando seria lançado. O gerente de produção da KIA precisa saber quando estará pronto para liberá-lo para poder liberar seu carro novo na mesma época.

A KIA sabe que o novo carro precisa dos seguintes componentes para estar pronto para o lançamento (1) do motor, (2) transmissão, (3) carroceria, (4) Rodas e suspensão. Os engenheiros experientes da KIA afirmam que, para um novo projeto como esse, eles têm 90% de confiança de que ele poderá ser concluído em dois anos. A KIA também descobriu que a GM fez um teste com a nova transmissão em outro SUV e funcionou como projetado com uma taxa de sucesso de 95%. Os mesmos engenheiros afirmaram que, dado esse teste de transmissão, um carro pode ser concluído dentro desse prazo em 70% do tempo.

Do jeito que eu tenho, neste momento o KIA pode iniciar o cálculo bayesiano com a amostra inicial como abaixo:

   A = GM will release the new car in two years
   B1 = GM will successfully test a new transmission
   P(A) = Prior Probability that GM will release the new car in two years
   P(B1) = Probability that GM will successfully test a new transmission
   P(B1|A) = Likelihood that given a successful transmission test, the car will be released within 2 years

Atribuindo valores da seguinte maneira

   P(A) = .9
   P(B1) = .95
   P(B1|A) = .7

P(A|B1)=P(A)P(B1|A)P(A)P(B1|A)+P(A¯)P(B1|A¯)

.9545=.9.7(.9.7)+(.1.3)

Logo após o departamento de estatística da KIA fazer essa atualização, a GM anunciou que havia testado seu novo mecanismo e que tinha uma taxa de sucesso de 98% em todos os seus testes. Os engenheiros da KIA disseram que, normalmente, se houver um teste bem-sucedido do motor, há uma probabilidade de 80% de que um carro seja concluído no prazo - mas eles não sabiam qual era a probabilidade no tempo de conclusão geral, tanto o motor quanto o motor. teste de transmissão foi.

Os valores agora do nosso segundo fragmento de evidência, que deve ser observado, são independentes para este caso - mas não são, em todos os casos, por exemplo, o corpo deve continuar após a suspensão:

   P(B2) = .98
   P(B2|A) = .8

Então, aqui é onde estou tendo problemas: integrar aritmeticamente o P (A | B1) posterior no cálculo de P (A | B1, B2), considerando que os anteriores devem permanecer constantes. Como mencionei, alguns eventos dentro de { } são independentes, outros são condicionais.B1...Bn

Eu vi a entrada da wikipedia que descreve três extensões de bayes de eventos:

P(A|B1,B2)=P(B2|A,B1)P(B1|A)P(A)P(B2|B1)P(B1)

no entanto, que tal uma quarta e quinta extensão?

A maioria dos livros e recursos on-line que tenho não mostra as etapas para atualizar os anteriores de qualquer maneira que eu possa discriminar. Pode ser que eu esteja muito longe dos meus dias de cálculo na graduação para interpretá-lo, mas meu medo é que eu precise ter uma experiência significativa em teoria dos conjuntos e matemática em nível de pós-graduação para fazer o que parece ser um cálculo simples. Essa troca é a mais próxima que pude encontrar e, mesmo assim, ela não passa por ela. O fato de eu não ter, após uma semana de pesquisa, encontrado um tutorial básico sobre a mecânica da atualizaçãoO teorema de Bayes (não importa o que seja e como ele funciona - há mais do que suficiente) além da primeira implementação, me faz pensar que não é um cálculo trivial. Existe uma maneira simples de fazer essa atualização sem matemática no nível de pós-graduação?

Nota: Estou ciente da ironia relacionada à dificuldade inerente ao "problema de atualização" do WRT Bayes, pois Yudkowski vem discutindo isso há algum tempo. Eu estava assumindo, talvez incorretamente, que aqueles que estavam trabalhando nele estavam fazendo referência a iterações muito mais complexas, mas estou ciente de que poderia ser o caso em que estou enfrentando esse problema.

Andrew
fonte

Respostas:

10

Começarei respondendo à sua pergunta sobre a atualização de eventos com as "quarta e quinta extensões". Como você suspeitava, a aritmética é realmente bastante simples.

Primeiro, lembre-se de como o teorema de Bayes é derivado da definição de probabilidade condicional:

insira a descrição da imagem aqui

Ao condicionar em A no numerador, podemos chegar à forma mais familiar:

insira a descrição da imagem aqui

Agora considere se não temos apenas B, mas sim 2 ou mais eventos B_1, B_2 ... Para isso, podemos derivar a extensão de Bayes de três eventos que você cita usando a regra de probabilidade em cadeia , que é (da wikipedia):

insira a descrição da imagem aqui

Para B_1 e B_2, começamos com a definição de probabilidade condicional

insira a descrição da imagem aqui

E use a regra da cadeia no numerador e no denominador:

insira a descrição da imagem aqui

E assim, redivivemos a equação que você cita da wikipedia. Vamos tentar adicionar outro evento:

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Adicionar um quinto evento é igualmente simples (um exercício para o leitor). Mas você certamente notará um padrão, a saber, que a resposta para a versão de três eventos é mantida dentro da resposta para a versão de quatro eventos, para que possamos reescrever isso como:

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Ou, de maneira mais geral, a regra para atualizar o posterior após a enésima evidência:

insira a descrição da imagem aqui

É nessa fração que você está interessado. Agora, o que você está falando é que isso pode não ser fácil de calcular - não por causa de qualquer dificuldade aritmética, mas por causa das dependências dentro dos B's. Se dizemos que cada B é distribuído independentemente, a atualização se torna muito simples:

insira a descrição da imagem aqui

(De fato, você notará que é uma aplicação simples do teorema de Bayes!) A complexidade dessa fração depende de quais das evidências anteriores suas novas evidências dependem. A importância da dependência condicional entre suas variáveis ​​e suas evidências é precisamente o motivo pelo qual as redes bayesianas foram desenvolvidas (na verdade, o descrito acima descreve a fatoração das redes bayesianas).

Agora, vamos falar sobre o seu exemplo. Primeiro, sua interpretação da palavra problema tem um problema. Suas interpretações de 70% e 80% são, respectivamente,

P(B1|A) = .7
P(B2|A) = .8

Mas (de acordo com suas definições) A ​​significa que o carro será concluído no prazo, B_1 significa que a GM testa a transmissão com sucesso e B_2 significa que há um teste de motor bem-sucedido, o que significa que você está conseguindo retroceder - eles devem

P(A|B1) = .7
P(A|B2) = .8

Agora, no entanto, o problema da palavra realmente não faz sentido. Aqui estão os três problemas:

1) Eles estão efetivamente dando a você o que você está procurando: dizendo "com esse teste de transmissão, um carro pode ser concluído dentro desse prazo 70% do tempo" e depois perguntando "qual é a probabilidade de um carro ser concluído naquele tempo".

2) A evidência leva você na direção oposta que o senso comum esperaria. A probabilidade era de 90% antes que você soubesse sobre a transmissão. Como o conhecimento de um teste bem - sucedido pode baixá-lo para 70%?

3) Há uma diferença entre uma "taxa de sucesso de 95%" e uma chance de 95% de um teste ser bem-sucedido. A taxa de sucesso pode significar muitas coisas (por exemplo, que proporção uma peça não quebra), o que a torna uma questão de engenharia sobre a qualidade da peça, não uma avaliação subjetiva de "com que certeza o teste foi bem-sucedido?" Como um exemplo ilustrativo, imagine que estávamos falando de uma peça crítica de um foguete, que precisa de pelo menos 99,999% de chance de trabalhar durante um voo. Dizer "A peça quebra 20% do tempo" não significa que há 80% de chance de o teste ser bem-sucedido e, portanto, 80% de chance de você lançar o foguete na próxima semana. Talvez a parte leve 20 anos para ser desenvolvida e corrigida - não há como saber com base nas informações fornecidas.

Por esses motivos, o problema é muito pouco formulado. Mas, como indiquei acima, a aritmética envolvida na atualização com base em vários eventos é bastante direta. Nesse sentido, espero ter respondido à sua pergunta.

ETA: Com base nos seus comentários, eu diria que você deve refazer a pergunta desde o início. Você certamente deve se livrar da idéia da "taxa de sucesso" de 95% / 98%, que neste contexto é uma questão de engenharia e não estatística estatística bayesiana. Em segundo lugar, as estimativas de "Estamos 70% confiantes, considerando que esta parte funciona, que o carro estará pronto em dois anos" é uma probabilidade posterior, não uma evidência; você não pode usá-lo para atualizar o que você já possui.

Na situação que você está descrevendo, você precisa das quatro partes para trabalhar dentro do prazo. Assim, a coisa mais inteligente a fazer seria simplesmente dizer "Qual é a probabilidade de cada parte trabalhar em dois anos?" Então você pega o produto dessas probabilidades (assumindo a independência) e tem a probabilidade de que tudo funcione em dois anos.

Recuando, parece que você está realmente tentando combinar várias previsões subjetivas em uma. Nesse caso, minha recomendação seria demitir seus engenheiros. Por quê? Como eles estão dizendo a você que estão 90% confiantes de que estará pronto em dois anos, mas depois de aprenderem um teste bem-sucedido da transmissão, rebaixando suas estimativas para 70%. Se é com esse talento que estamos trabalhando, nenhuma estatística bayesiana nos ajudará :-)

Mais seriamente, talvez se você fosse mais específico sobre o tipo de problema (que provavelmente é algo como combinar P (A | B1) e P (A | B2)), eu poderia lhe dar mais alguns conselhos.

David Robinson
fonte
Obrigado, isso ajuda a esclarecer o nível de dificuldade com o qual estou trabalhando. Pelo que vale a pena, projetei o problema para que possa haver um problema inerente. Com relação à redação do problema: Cada P (B_n | A) deve ser independente da probabilidade anterior. Usando o exemplo, se a GM terminar um componente em particular, os engenheiros têm uma probabilidade de que o carro seja concluído no prazo, independentemente de outros componentes.
Andrew
Não sei bem o que você quer dizer - o problema com a palavra problema que você apresenta não é o nível de dificuldade, mas a redação. Isso é um problema original ou uma tarefa?
David Robinson
Perdoe-me - estou me ajustando à quebra de parágrafo com a tecla Shift e Enter nos comentários. Como mencionei na edição, é o meu próprio exemplo que pode ser mal formulado como você mencionou. Os conjuntos com os quais trabalho são tipicamente desunidos em relação à sua fonte de dados, portanto, tenho que determinar com freqüência como um novo dado que não depende necessariamente de outros dados do mesmo conjunto ou do mesmo grupo afeta uma hipótese e é por isso que Eu escrevi como eu fiz. No exemplo acima, imagine que os engenheiros tenham uma probabilidade de conclusão geral com base em cada componente independentemente.
Andrew
Veja edições. Você tem certeza de que eles têm uma estimativa da conclusão geral com base em cada componente independentemente? Ou eles têm uma estimativa da conclusão desse componente, dado o teste bem-sucedido?
David Robinson
Como você mencionou, parece que estou tentando atualizar P (A | B1) com P (A | B2), P (A | B3) ... P (A | Bn). Se você preferir, podemos tirar essa discussão dos comentários por e-mail. [email protected]
Andrew
0

Existem várias maneiras de estender esse resultado. A forma geral é que Existem várias maneiras de escrever numerador e denominador. Seu formulário dá dois exemplos (assumindo que e são a mesma coisa). Obviamente, para um determinado problema, você deve formular o LHS escrevendo o RHS em termos de quantidades que realmente conhece; se isso pode ser feito para o seu problema específico provavelmente vale uma pergunta mais específica neste site.

P(A|B,C,D...)=P(A,B,C,D...)P(B,C,D,...)
B2C

Quando as variáveis ​​( ) etc. são contínuas, o cálculo da posterior fica realmente muito mais complicado, na maioria dos problemas, e são necessárias técnicas matemáticas / estatísticas de nível de pós-graduação.A,B,C,D

hóspede
fonte