Em um grupo de estudantes, existem 2 de 18 que são canhotos. Encontre a distribuição posterior de estudantes canhotos na população, assumindo não informação prévia. Resuma os resultados. Segundo a literatura, 5-20% das pessoas são canhotos. Leve essas informações em consideração no seu anterior e calcule o novo posterior.
Eu sei que a distribuição beta deve ser usada aqui. Primeiro, com valores e como 1? A equação que encontrei no material para posterior é
N = 18 ,
Por que esse na equação? ( denotando a proporção de canhotos). Como é desconhecido nessa equação? Para mim, parece ridículo calcular dado e usar esse na equação que dá . Bem, com a amostra o resultado foi . O I deve deduzir a partir disso?
A equação que fornece um valor esperado de dado e conhecidos, funcionou melhor e me deu que parece certo. A equação sendo com o valor atribuído a e . Quais valores devo fornecer e para levar em conta as informações anteriores?
Algumas dicas seriam muito apreciadas. Uma palestra geral sobre distribuições anteriores e posteriores também não prejudicaria (tenho um entendimento vago do que são, mas apenas um vago). Lembre-se também de que não sou estatístico muito avançado (na verdade, sou cientista político do meu ramo principal). a matemática avançada provavelmente voará sobre minha cabeça.
fonte
Respostas:
Deixe-me primeiro explicar o que é um conjugado anterior . Vou então explicar as análises bayesianas usando seu exemplo específico. As estatísticas bayesianas envolvem as seguintes etapas:
A base de todas as estatísticas bayesianas é o teorema de Bayes, que é
No seu caso, a probabilidade é binomial. Se as distribuições anterior e posterior estão na mesma família, as anteriores e posteriores são chamadas de distribuições conjugadas . A distribuição beta é um conjugado anterior porque o posterior também é uma distribuição beta. Dizemos que a distribuição beta é a família conjugada para a probabilidade binomial. As análises conjugadas são convenientes, mas raramente ocorrem em problemas do mundo real. Na maioria dos casos, a distribuição posterior deve ser encontrada numericamente via MCMC (usando Stan, WinBUGS, OpenBUGS, JAGS, PyMC ou algum outro programa).
Se a distribuição de probabilidade anterior não se integra a 1, ela é chamada de prioritária imprópria ; se ela se integra a 1, é chamada de prévia adequada . Na maioria dos casos, um prévio inadequado não representa um grande problema para as análises bayesianas. A distribuição posterior deve ser correta, ou seja, a posterior deve integrar-se a 1.
Essas regras práticas seguem diretamente a natureza do procedimento de análise bayesiano:
Uma excelente visão geral de alguns possíveis antecedentes "informativos" e "não informativos" para a distribuição beta pode ser encontrada neste post .
Digamos que sua versão beta anterior seja que é a proporção de canhotos. Para especificar os parâmetros anteriores e , é útil conhecer a média e a variação da distribuição beta (por exemplo, se você deseja que o seu anterior tenha uma certa média e variação). A média é . Assim, sempre que , a média é . A variação da distribuição beta é . Agora, o mais conveniente é que você possa pensar em eBeta(πLH|α,β) πLH α β π¯LH=α/(α+β) α=β 0.5 αβ(α+β)2(α+β+1) α β como dados (pseudo-) observados anteriormente, ou seja, canhotos e destros de uma amostra (pseudo-) de tamanho . A distribuição é uniforme (todos os valores de são igualmente prováveis) e equivale a ter observado duas pessoas fora dos quais um é canhoto e outro é destro.α β neq=α+β Beta(πLH|α=1,β=1) πLH
A distribuição beta posterior é simplesmente que é o tamanho da amostra e é o número de canhotos na amostra. A média posterior de é, portanto, . Portanto, para encontrar os parâmetros da distribuição beta posterior, basta adicionar canhotos a e destros a . A variação posterior éBeta(z+α,N−z+β) N z πLH (z+α)/(N+α+β) z α N−z β (z+α)(N−z+β)(N+α+β)2(N+α+β+1) . Observe que um prior altamente informativo também leva a uma variação menor da distribuição posterior (os gráficos abaixo ilustram bem o ponto).
No seu caso, e e seu prior é o uniforme que não é informativo, então . Sua distribuição posterior é, portanto, . A média posterior é . Aqui está um gráfico que mostra o anterior, a probabilidade dos dados e o posteriorz=2 N=18 α=β=1 Beta(3,17) π¯LH=3/(3+17)=0.15
Você vê que, como sua distribuição anterior não é informativa, sua distribuição posterior é inteiramente orientada pelos dados. Também é plotado o maior intervalo de densidade (IDH) para a distribuição posterior. Imagine que você coloca sua distribuição posterior em uma bacia 2D e começa a encher água até 95% da distribuição estar acima da linha d'água. Os pontos em que a linha d'água se cruza com a distribuição posterior constituem o IDH de 95%. Todo ponto dentro do IDH tem uma probabilidade mais alta do que qualquer ponto fora dele. Além disso, o IDH sempre inclui o pico da distribuição posterior (ou seja, o modo). O IDH é diferente de um intervalo de 95% de cauda igual e credível, onde são excluídos 2,5% de cada cauda da parte posterior (veja aqui ).
Para sua segunda tarefa, você deve incorporar as informações de que 5 a 20% da população são canhotos. Existem várias maneiras de fazer isso. A maneira mais fácil é dizer que a distribuição beta anterior deve ter uma média de que é a média de e . Mas como escolher e da distribuição beta anterior? Primeiro, você deseja que sua média da distribuição anterior seja de uma pseudo-amostra de tamanho de amostra equivalente . De maneira mais geral, se você deseja que seu anterior tenha um médio com um tamanho de pseudo-amostra , o correspondente0.125 0.05 0.2 α β 0.125 neq m neq α e valores são: e . Tudo o que você precisa fazer agora é escolher o tamanho da pseudo-amostra que determina o quão confiante você está em relação às suas informações anteriores. Digamos que você tenha muita certeza sobre suas informações anteriores e defina . Os parâmetros da sua distribuição anterior são e . A distribuição posterior é com uma média de cerca de que é praticamente a mesma que a média anterior deβ α=mneq β=(1−m)neq neq neq=1000 α=0.125⋅1000=125 β=(1−0.125)⋅1000=875 Beta(127,891) 0.125 0.125 . As informações anteriores estão dominando o posterior (veja o gráfico a seguir):
Se você tiver menos certeza sobre as informações anteriores, poderá definir o da sua pseudo-amostra como, digamos, , que gera e para sua distribuição beta anterior. A distribuição posterior é com uma média de cerca de . A média posterior agora está próxima da média dos seus dados ( ) porque os dados superam os anteriores. Aqui está o gráfico mostrando a situação:neq 10 α=1.25 β=8.75 Beta(3.25,24.75) 0.116 0.111
Um método mais avançado de incorporar as informações anteriores seria dizer que o quantil da sua distribuição beta anterior deve ser de cerca de e o quantil de deve ser de cerca de . Isso equivale a dizer que você tem 95% de certeza de que a proporção de canhotos na população está entre 5% e 20%. A função no pacote R calcula os valores e correspondentes de uma distribuição beta correspondente a esses quantis. O código é0.025 0.05 0.975 0.2 α β
beta.select
LearnBayes
Parece que uma distribuição beta com os parâmetros e possui as propriedades desejadas. A média anterior é que está próximo da média dos seus dados ( ). Novamente, essa distribuição anterior incorpora as informações de uma pseudo-amostra com um tamanho de amostra equivalente de cerca de . A distribuição posterior é com uma média de que é comparável à média da análise anterior usando um altamente informativo anterior. Aqui está o gráfico correspondente:α=7.61 β=59.13 7.61/(7.61+59.13)≈0.114 0.111 neq≈7.61+59.13≈66.74 Beta(9.61,75.13) 0.113 Beta(125,875)
Veja também esta referência para uma breve, mas com boa visão geral do raciocínio bayesiano e análise simples. Uma introdução mais longa para análises conjugadas, especialmente para dados binomiais, pode ser encontrada aqui . Uma introdução geral ao pensamento bayesiano pode ser encontrada aqui . Mais slides sobre aspectos das estatísticas baysianas estão aqui .
fonte
Uma distribuição beta com = 1 e = 1 é igual a uma distribuição uniforme. Portanto, é de fato uniforme. Você está tentando encontrar informações sobre um parâmetro de uma distribuição (nesse caso, porcentagem de canhotos em um grupo de pessoas). A fórmula de Bayes afirma:α β
que você apontou é proporcional a:
Então, basicamente, você está começando com sua crença anterior da proporção de canhotos no grupo (P (r), para a qual você está usando um dist uniforme), e depois considerando os dados que você coleta para informar seu anterior (um binômio nesse caso, você é destro ou canhoto, então ). Uma distribuição binomial tem um conjugado beta anterior, o que significa que a distribuição posteriorP(Y1,...,n|r) P(r|Y1,...n) , a distribuição do parâmetro após considerar os dados está na mesma família que a anterior. r aqui não é desconhecido no final. (e, francamente, não foi antes da coleta dos dados. temos uma boa idéia da proporção de canhotos na sociedade.) Você tem a distribuição anterior (sua suposição de r) e a coleta de dados e juntar os dois. O posterior é sua nova suposição sobre a distribuição dos canhotos depois de considerar os dados. Então você toma a probabilidade dos dados e multiplica-os por um uniforme. O valor esperado de uma distribuição beta (que é o cartaz) é . Então, quando você começou, sua suposição com = 1 eαα+β α β = 1 foi que a proporção de canhotos no mundo foi . Agora você coletou dados com dois canhotos de 18 anos. Você calculou um posterior. (ainda beta) Seus valores e agora são diferentes, alterando sua ideia da proporção de canhotos e canhotos. como isso mudou?12 α β
fonte
Na primeira parte da sua pergunta, você deve definir um prior adequado para "r". Com os dados binomiais em mãos, seria aconselhável escolher uma distribuição beta. Porque então o posterior será um beta. Como a distribuição uniforme é um caso especial de beta, você pode escolher antes para "r" a distribuição uniforme, permitindo que todos os valores possíveis de "r" sejam igualmente prováveis.
Na segunda parte, você forneceu as informações sobre a distribuição anterior "r".
Com isso em mãos, a resposta da @ COOLSerdash fornecerá as instruções adequadas.
Obrigado por postar esta pergunta e COOLSerdash por fornecer uma resposta adequada.
fonte