Ajude-me a entender as distribuições Bayesianas anteriores e posteriores

125

Em um grupo de estudantes, existem 2 de 18 que são canhotos. Encontre a distribuição posterior de estudantes canhotos na população, assumindo não informação prévia. Resuma os resultados. Segundo a literatura, 5-20% das pessoas são canhotos. Leve essas informações em consideração no seu anterior e calcule o novo posterior.

Eu sei que a distribuição beta deve ser usada aqui. Primeiro, com valores e como 1? A equação que encontrei no material para posterior éαβ

π(r|Y)r(Y+1)×(1r)(NY+1)

Y=2N = 18 ,N=18

Por que esse na equação? ( denotando a proporção de canhotos). Como é desconhecido nessa equação? Para mim, parece ridículo calcular dado e usar esse na equação que dá . Bem, com a amostra o resultado foi . O I deve deduzir a partir disso?rrrYrrr=2/180,0019f

A equação que fornece um valor esperado de dado e conhecidos, funcionou melhor e me deu que parece certo. A equação sendo com o valor atribuído a e . Quais valores devo fornecer e para levar em conta as informações anteriores?RYN0,15E(r|X,N,α,β)=(α+X)/(α+β+N)1αβαβ

Algumas dicas seriam muito apreciadas. Uma palestra geral sobre distribuições anteriores e posteriores também não prejudicaria (tenho um entendimento vago do que são, mas apenas um vago). Lembre-se também de que não sou estatístico muito avançado (na verdade, sou cientista político do meu ramo principal). a matemática avançada provavelmente voará sobre minha cabeça.

Prumo
fonte
4
Você deu uma olhada nesta pergunta e resposta ?
David Robinson
7
A frase " Encontre a distribuição posterior de alunos canhotos " não faz sentido. Variáveis ​​aleatórias têm distribuições e "alunos canhotos" não é um rv, presumo que você pretenda " Encontrar a distribuição posterior da proporção de alunos canhotos ". É importante não encobrir esses detalhes, mas ter clareza sobre o que você está realmente falando.
Glen_b
2
Na verdade, lendo sua pergunta, parece-me que seu problema não é tanto as estatísticas bayesianas, mas simplesmente entender as distribuições de probabilidade; é sempre o caso de que o argumento de uma função de distribuição (ou uma função de probabilidade como você tem lá) é uma função de um desconhecido (a variável aleatória). Esse é o objetivo deles.
Glen_b
Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
gung

Respostas:

234

Deixe-me primeiro explicar o que é um conjugado anterior . Vou então explicar as análises bayesianas usando seu exemplo específico. As estatísticas bayesianas envolvem as seguintes etapas:

  1. Defina a distribuição anterior que incorpora suas crenças subjetivas sobre um parâmetro (no seu exemplo, o parâmetro de interesse é a proporção de canhotos). O prior pode ser "não informativo" ou "informativo" (mas não existe um prior que não tenha informações, consulte a discussão aqui ).
  2. Reúna dados.
  3. Atualize sua distribuição anterior com os dados usando o teorema de Bayes para obter uma distribuição posterior. A distribuição posterior é uma distribuição de probabilidade que representa suas crenças atualizadas sobre o parâmetro depois de ver os dados.
  4. Analise a distribuição posterior e resuma-a (média, mediana, sd, quantis, ...).

A base de todas as estatísticas bayesianas é o teorema de Bayes, que é

posteriorprior×likelihood

No seu caso, a probabilidade é binomial. Se as distribuições anterior e posterior estão na mesma família, as anteriores e posteriores são chamadas de distribuições conjugadas . A distribuição beta é um conjugado anterior porque o posterior também é uma distribuição beta. Dizemos que a distribuição beta é a família conjugada para a probabilidade binomial. As análises conjugadas são convenientes, mas raramente ocorrem em problemas do mundo real. Na maioria dos casos, a distribuição posterior deve ser encontrada numericamente via MCMC (usando Stan, WinBUGS, OpenBUGS, JAGS, PyMC ou algum outro programa).

Se a distribuição de probabilidade anterior não se integra a 1, ela é chamada de prioritária imprópria ; se ela se integra a 1, é chamada de prévia adequada . Na maioria dos casos, um prévio inadequado não representa um grande problema para as análises bayesianas. A distribuição posterior deve ser correta, ou seja, a posterior deve integrar-se a 1.

Essas regras práticas seguem diretamente a natureza do procedimento de análise bayesiano:

  • Se o prior não é informativo, o posterior é muito determinado pelos dados (o posterior é orientado por dados)
  • Se o prior é informativo, o posterior é uma mistura do prior e dos dados
  • Quanto mais informativo o anterior, mais dados você precisa "mudar" suas crenças, por assim dizer, porque o posterior é muito impulsionado pelas informações anteriores
  • Se você tiver muitos dados, eles dominarão a distribuição posterior (eles sobrecarregarão a anterior)

Uma excelente visão geral de alguns possíveis antecedentes "informativos" e "não informativos" para a distribuição beta pode ser encontrada neste post .

Digamos que sua versão beta anterior seja que é a proporção de canhotos. Para especificar os parâmetros anteriores e , é útil conhecer a média e a variação da distribuição beta (por exemplo, se você deseja que o seu anterior tenha uma certa média e variação). A média é . Assim, sempre que , a média é . A variação da distribuição beta é . Agora, o mais conveniente é que você possa pensar em eBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβcomo dados (pseudo-) observados anteriormente, ou seja, canhotos e destros de uma amostra (pseudo-) de tamanho . A distribuição é uniforme (todos os valores de são igualmente prováveis) e equivale a ter observado duas pessoas fora dos quais um é canhoto e outro é destro.αβneq=α+βBeta(πLH|α=1,β=1)πLH

A distribuição beta posterior é simplesmente que é o tamanho da amostra e é o número de canhotos na amostra. A média posterior de é, portanto, . Portanto, para encontrar os parâmetros da distribuição beta posterior, basta adicionar canhotos a e destros a . A variação posterior éBeta(z+α,Nz+β)NzπLH(z+α)/(N+α+β)zαNzβ(z+α)(Nz+β)(N+α+β)2(N+α+β+1). Observe que um prior altamente informativo também leva a uma variação menor da distribuição posterior (os gráficos abaixo ilustram bem o ponto).

No seu caso, e e seu prior é o uniforme que não é informativo, então . Sua distribuição posterior é, portanto, . A média posterior é . Aqui está um gráfico que mostra o anterior, a probabilidade dos dados e o posteriorz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15

A priori, a probabilidade dos dados e a distribuição posterior com uma uniformidade prévia

Você vê que, como sua distribuição anterior não é informativa, sua distribuição posterior é inteiramente orientada pelos dados. Também é plotado o maior intervalo de densidade (IDH) para a distribuição posterior. Imagine que você coloca sua distribuição posterior em uma bacia 2D e começa a encher água até 95% da distribuição estar acima da linha d'água. Os pontos em que a linha d'água se cruza com a distribuição posterior constituem o IDH de 95%. Todo ponto dentro do IDH tem uma probabilidade mais alta do que qualquer ponto fora dele. Além disso, o IDH sempre inclui o pico da distribuição posterior (ou seja, o modo). O IDH é diferente de um intervalo de 95% de cauda igual e credível, onde são excluídos 2,5% de cada cauda da parte posterior (veja aqui ).

Para sua segunda tarefa, você deve incorporar as informações de que 5 a 20% da população são canhotos. Existem várias maneiras de fazer isso. A maneira mais fácil é dizer que a distribuição beta anterior deve ter uma média de que é a média de e . Mas como escolher e da distribuição beta anterior? Primeiro, você deseja que sua média da distribuição anterior seja de uma pseudo-amostra de tamanho de amostra equivalente . De maneira mais geral, se você deseja que seu anterior tenha um médio com um tamanho de pseudo-amostra , o correspondente0.1250.050.2αβ0.125neqmneqαe valores são: e . Tudo o que você precisa fazer agora é escolher o tamanho da pseudo-amostra que determina o quão confiante você está em relação às suas informações anteriores. Digamos que você tenha muita certeza sobre suas informações anteriores e defina . Os parâmetros da sua distribuição anterior são e . A distribuição posterior é com uma média de cerca de que é praticamente a mesma que a média anterior deβα=mneqβ=(1m)neqneqneq=1000α=0.1251000=125β=(10.125)1000=875Beta(127,891)0.1250.125. As informações anteriores estão dominando o posterior (veja o gráfico a seguir):

O prior, a probabilidade dos dados e a posterior distribuição com fortes informações informativas

Se você tiver menos certeza sobre as informações anteriores, poderá definir o da sua pseudo-amostra como, digamos, , que gera e para sua distribuição beta anterior. A distribuição posterior é com uma média de cerca de . A média posterior agora está próxima da média dos seus dados ( ) porque os dados superam os anteriores. Aqui está o gráfico mostrando a situação:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111

O anterior, a probabilidade dos dados e a distribuição posterior com beta anterior, correspondendo a um tamanho de pseudo-amostra de 3

Um método mais avançado de incorporar as informações anteriores seria dizer que o quantil da sua distribuição beta anterior deve ser de cerca de e o quantil de deve ser de cerca de . Isso equivale a dizer que você tem 95% de certeza de que a proporção de canhotos na população está entre 5% e 20%. A função no pacote R calcula os valores e correspondentes de uma distribuição beta correspondente a esses quantis. O código é0.0250.050.9750.2beta.selectLearnBayesαβ

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

Parece que uma distribuição beta com os parâmetros e possui as propriedades desejadas. A média anterior é que está próximo da média dos seus dados ( ). Novamente, essa distribuição anterior incorpora as informações de uma pseudo-amostra com um tamanho de amostra equivalente de cerca de . A distribuição posterior é com uma média de que é comparável à média da análise anterior usando um altamente informativo anterior. Aqui está o gráfico correspondente:α=7.61β=59.137.61/(7.61+59.13)0.1140.111neq7.61+59.1366.74Beta(9.61,75.13)0.113Beta(125,875)

O prior, a probabilidade dos dados e a distribuição posterior com prior que possui quantis de 0,05 e 0,975 de 0,05 e 0,2

Veja também esta referência para uma breve, mas com boa visão geral do raciocínio bayesiano e análise simples. Uma introdução mais longa para análises conjugadas, especialmente para dados binomiais, pode ser encontrada aqui . Uma introdução geral ao pensamento bayesiano pode ser encontrada aqui . Mais slides sobre aspectos das estatísticas baysianas estão aqui .

COOLSerdash
fonte
1
Por que escolhemos a distribuição Beta aqui?
Metariat 04/04
1
@ Metallica O principal motivo é que o Beta é o conjugado anterior à distribuição binomial. Isso significa que, se escolhermos um Beta como anterior, o posterior também será Beta. Outras razões são que o Beta está entre 0 e 1 e é muito flexível. Inclui o uniforme, por exemplo. Mas qualquer distribuição adequada com suporte em pode ser usada como anteriormente. Só que o posterior é mais difícil de calcular. (0,1)
precisa
Você ainda tem o documento para "Introdução ao pensamento bayesiano"? O link do Dropbox está morto.
bs7280
@ bs7280 Atualizei os links. Eles devem trabalhar novamente agora.
COOLSerdash
1
@meduz A rigor, não existe um real "não informativo" real. Gostaria de encaminhá-lo para a excelente resposta de Tim sobre esta discussão.
COOLSerdash
8

Uma distribuição beta com = 1 e = 1 é igual a uma distribuição uniforme. Portanto, é de fato uniforme. Você está tentando encontrar informações sobre um parâmetro de uma distribuição (nesse caso, porcentagem de canhotos em um grupo de pessoas). A fórmula de Bayes afirma:αβ

P(r|Y1,...,n) =P(Y1,...,n|r)P(r)P(Y1,...,n|θ)P(r)

que você apontou é proporcional a:

P(r|Y1,...,n) (Y1,...,n|r)P(r)

Então, basicamente, você está começando com sua crença anterior da proporção de canhotos no grupo (P (r), para a qual você está usando um dist uniforme), e depois considerando os dados que você coleta para informar seu anterior (um binômio nesse caso, você é destro ou canhoto, então ). Uma distribuição binomial tem um conjugado beta anterior, o que significa que a distribuição posteriorP(Y1,...,n|r)P(r|Y1,...n), a distribuição do parâmetro após considerar os dados está na mesma família que a anterior. r aqui não é desconhecido no final. (e, francamente, não foi antes da coleta dos dados. temos uma boa idéia da proporção de canhotos na sociedade.) Você tem a distribuição anterior (sua suposição de r) e a coleta de dados e juntar os dois. O posterior é sua nova suposição sobre a distribuição dos canhotos depois de considerar os dados. Então você toma a probabilidade dos dados e multiplica-os por um uniforme. O valor esperado de uma distribuição beta (que é o cartaz) é . Então, quando você começou, sua suposição com = 1 eαα+βαβ= 1 foi que a proporção de canhotos no mundo foi . Agora você coletou dados com dois canhotos de 18 anos. Você calculou um posterior. (ainda beta) Seus valores e agora são diferentes, alterando sua ideia da proporção de canhotos e canhotos. como isso mudou?12αβ

Eric Peterson
fonte
1

Na primeira parte da sua pergunta, você deve definir um prior adequado para "r". Com os dados binomiais em mãos, seria aconselhável escolher uma distribuição beta. Porque então o posterior será um beta. Como a distribuição uniforme é um caso especial de beta, você pode escolher antes para "r" a distribuição uniforme, permitindo que todos os valores possíveis de "r" sejam igualmente prováveis.

Na segunda parte, você forneceu as informações sobre a distribuição anterior "r".

Com isso em mãos, a resposta da @ COOLSerdash fornecerá as instruções adequadas.

Obrigado por postar esta pergunta e COOLSerdash por fornecer uma resposta adequada.

Nilupa Rupasinghe
fonte