Podemos escrever o teorema de Bayes como
onde é o posterior, é a distribuição condicional e é o anterior.
ou
onde é o posterior, é a função de probabilidade e é o anterior.
Minha pergunta é
- Por que a análise bayesiana é feita usando a função de probabilidade e não a distribuição condicional?
- Você pode dizer em palavras qual é a diferença entre a probabilidade e a distribuição condicional? Eu sei que a probabilidade não é uma distribuição de probabilidade e .
bayesian
likelihood
kzoo
fonte
fonte
Respostas:
Suponha que você tenha variáveis aleatórias (cujos valores serão observados em seu experimento) que são condicionalmente independentes, considerando que , com densidades condicionais , para . Este é o seu modelo estatístico (postulado) estatístico (condicional) e as densidades condicionais expressam, para cada valor possível do parâmetro (aleatório) , sua incerteza sobre os valores dos 's antes de você ter acesso a qualquer dados reais. Com a ajuda das densidades condicionais, você pode, por exemplo, calcular probabilidades condicionais comoX1,…,Xn f X i ∣ Θ (Θ=θ fXi∣Θ(⋅∣θ) i=1,…,n θ Θ Xi
Depois de ter acesso a uma amostra real de valores (realizações) dos que foram observados em uma execução de seu experimento, a situação muda: não há mais incerteza sobre os observáveis . Suponha que o aleatório assuma valores em algum espaço de parâmetro . Agora, você define, para os valores conhecidos (fixos) uma função por Observe que , conhecida como "função de verossimilhança", é uma função de(x1,…,xn) Xi X1,…,Xn Θ Π (x1,…,xn)
Respondendo à sua pergunta, para entender as diferenças entre os conceitos de densidade condicional e probabilidade, lembre-se de suas definições matemáticas (que são claramente diferentes: são objetos matemáticos diferentes, com propriedades diferentes) e lembre-se de que a densidade condicional é um "pré" -sample "objeto / conceito, enquanto a probabilidade é" after-sample ". Espero que tudo isso também ajude você a responder por que a inferência bayesiana (usando sua maneira de colocá-la, o que eu não acho ideal) é feita "usando a função de probabilidade e não a distribuição condicional": o objetivo da inferência bayesiana é para calcular a distribuição posterior e, para isso, condicionamos os dados observados (conhecidos).
fonte
Proporcionalidade é usada para simplificar a análise
A análise bayesiana é geralmente feita através de uma afirmação ainda mais simples do teorema de Bayes, onde trabalhamos apenas em termos de proporcionalidade em relação ao parâmetro de interesse. Para um modelo IID padrão com densidade de amostragem , podemos expressar isso como:f(X|θ)
Esta declaração de atualização bayesiana funciona em termos de proporcionalidade em relação ao parâmetro . Utiliza duas simplificações de proporcionalidade: uma no uso da função de verossimilhança (proporcional à densidade de amostragem) e outra na posterior (proporcional ao produto de verossimilhança e anterior). Como a posterior é uma função de densidade (no caso contínuo), a regra normativa define a constante multiplicativa necessária para produzir uma densidade válida (ou seja, para integrá-la a uma).θ
Esse método de uso da proporcionalidade tem a vantagem de nos permitir ignorar quaisquer elementos multiplicativos das funções que não dependem do parâmetro . Isso tende a simplificar o problema, permitindo-nos varrer partes desnecessárias da matemática e obter instruções mais simples do mecanismo de atualização. Este não é um requisito matemático (já que a regra de Bayes também funciona em sua forma não proporcional), mas simplifica as coisas para nossos minúsculos cérebros animais.θ
Um exemplo aplicado: considere um modelo de IID com dados observados . Para facilitar nossa análise, definimos as estatísticas e , que são os dois primeiros momentos de amostra. Para este modelo, temos densidade de amostragem:X1,...,Xn∼IID N(θ,1) x¯=1n∑ni=1xi x¯¯=1n∑ni=1x2i
Agora, podemos trabalhar diretamente com essa densidade de amostragem, se quisermos. Mas observe que os dois primeiros termos dessa densidade são constantes multiplicativas que não dependem de . É chato ter que acompanhar esses termos, então vamos nos livrar deles, para que tenhamos a função de probabilidade:θ
Isso simplifica um pouco as coisas, já que não precisamos acompanhar um termo adicional. Agora, poderíamos aplicar a regra de Bayes usando sua versão completa da equação, incluindo o denominador integral. Mas, novamente, isso exige que controlemos outra constante multiplicativa irritante que não depende de (mais irritante porque precisamos resolver uma integral para obtê-la). Então, vamos aplicar a regra de Bayes em sua forma proporcional. Usando o conjugado anterior , com algum parâmetro de precisão conhecido , obtemos o seguinte resultado ( preenchendo o quadrado ):θ θ∼N(0,λ0) λ0>0
Assim, a partir deste trabalho, podemos ver que a distribuição posterior é proporcional a uma densidade normal. Como o posterior deve ser uma densidade, isso implica que o posterior é a densidade normal:
Portanto, vemos que a posteriori o parâmetro é normalmente distribuído com a média e a variação posteriores dadas por:θ
Agora, a distribuição posterior que derivamos tem uma constante de integração na sua frente (o que podemos encontrar facilmente observando a forma da distribuição normal ). Mas observe que não precisamos nos preocupar com essa constante multiplicativa - todo o nosso trabalho removeu (ou trouxe) constantes multiplicativas sempre que isso simplificou a matemática. O mesmo resultado pode ser obtido mantendo o controle das constantes multiplicativas, mas isso é muito mais confuso.
fonte
Acho que a resposta do Zen realmente mostra como conceitualmente a função de probabilidade e a densidade conjunta dos valores das variáveis aleatórias diferem. Ainda matematicamente como uma função de x θ eles são os mesmos e, nesse sentido, a probabilidade pode ser vista como uma densidade de probabilidade. A diferença que você aponta na fórmula para a distribuição posterior de Bayes é apenas uma diferença notacional. Mas a sutileza da diferença é bem explicada na resposta de Zen.i
Esse problema surgiu em outras questões discutidas neste site sobre a função de probabilidade. Também outros comentários de kjetil e Dilip parecem apoiar o que estou dizendo.
fonte