Comecei a ler sobre o estimador de máxima verossimilhança e as estatísticas bayesianas recentemente. Eu entendo que, dado um modelo estatístico onde pertence a um grande espaço de parâmetros , a divergência KL entre e ( é a verdadeira O parâmetro que gostaríamos de encontrar) é minimizado para o que maximiza . Assumindo que os eventos sejam independentes e distribuídos de forma idêntica, isso equivale a maximizar a probabilidade conjunta (a suposição de independência permite equiparar isso ao produto dos elementos individuais)
A abordagem bayesiana, explica a crença anterior na distribuição de , e maximiza , que pela regra de Bayes é equivalente a maximizar . Eu entendi as coisas até essa parte. Depois disso, é chamado de "probabilidade" e é substituído por , que é apenas o produto das probabilidades individuais do X está na distribuição . Isso significa que é realmente , ou seja, probabilidades dadas, ou algo assim ?
Não sou muito bom em probabilidade e distribuição, e meu entendimento é que o objeto é chamado de probabilidade condicional e o objeto (que é igual a por independência) é chamado de probabilidade conjunta e são coisas muito diferentes. Eu já vi autores usarem para a probabilidade conjunta em probabilidade máxima em alguns casos. Estou confuso por que a probabilidade conjunta e a probabilidade condicional são consideradas iguais?
fonte
Usarei uma notação simplificada nesta resposta. Se você estiver fazendo estatísticas clássicas, não é uma variável aleatória. Portanto, a notação está descrevendo um membro de uma família de funções ou densidades de probabilidade , na qual é o parâmetro espaço. Em uma análise bayesiana, é uma variável aleatória é uma função ou densidade de probabilidade condicional, que modela sua incerteza sobre para cada valor possível de . Depois que você termina sua experiência, não há mais incerteza sobreθ p(x;θ) {pθ(x)}θ∈Θ Θ θ p(x∣θ) x θ x (torna-se dados / informações que você conhece) e você vê como uma função de , para esses dados "fixos" . Essa função de probabilidade vive na interseção entre os estilos clássico e bayesiano de inferência. Na minha opinião, o caminho bayesiano é melhor compreendido em termos de independência condicional . Sugiro que você escreva e explore a função de probabilidade do modelo de Bernoulli; representar graficamente; pense sobre seu significado antes e depois do experimento. Você mencionou que um bayesiano maximiza o posteriorp(x∣θ)=Lx(θ) θ x Lx(θ) π(θ∣x) . Esse não é necessariamente o caso. Existem outras maneiras de resumir a distribuição posterior. Essencialmente, o resumo escolhido depende da introdução de uma função de perda. Verifique a Escolha Bayesiana de Robert para aprender todos os detalhes sangrentos.
fonte