Como é ?

8

Comecei a ler sobre o estimador de máxima verossimilhança e as estatísticas bayesianas recentemente. Eu entendo que, dado um modelo estatístico onde pertence a um grande espaço de parâmetros , a divergência KL entre e ( é a verdadeira O parâmetro que gostaríamos de encontrar) é minimizado para o que maximiza . Assumindo que os eventos sejam independentes e distribuídos de forma idêntica, isso equivale a maximizar a probabilidade conjunta(X,(Pθ))θΘPθPθθθi=1npθ(Xi)P[X1=x1,X2=x2,...,Xn=xn]. (a suposição de independência permite equiparar isso ao produto dos elementos individuais)

A abordagem bayesiana, explica a crença anterior na distribuição de , e maximiza , que pela regra de Bayes é equivalente a maximizar . Eu entendi as coisas até essa parte. Depois disso, é chamado de "probabilidade" e é substituído por , que é apenas o produto das probabilidades individuais do X está na distribuição . Isso significa que é realmente , ou seja, probabilidades dadasθP(θ)P(θ|X)P(X|θ)P(θ)/P(X)P(X|θ)P[X1=x1,X2=x2,...,Xn=xn]PθP[X1=x1,X2=x2,...,Xn=xn]Pθ[X1=x1,X2=x2,...,Xn=xn]θ, ou algo assim ?

Não sou muito bom em probabilidade e distribuição, e meu entendimento é que o objeto é chamado de probabilidade condicional e o objeto (que é igual a por independência) é chamado de probabilidade conjunta e são coisas muito diferentes. Eu já vi autores usarem para a probabilidade conjunta em probabilidade máxima em alguns casos. Estou confuso por que a probabilidade conjunta e a probabilidade condicional são consideradas iguais?P(X|θ)P[X1=x1,X2=x2,...,Xn=xn]i=1npθ(Xi)P(X;θ)

rranjik
fonte

Respostas:

8

Existem alguns problemas aqui:

  1. Nas estatísticas clássicas, todas as distribuições usadas são implicitamente condicionais em , o que é considerado uma "constante desconhecida". Na análise bayesiana, não existe uma constante desconhecida (qualquer coisa desconhecida é tratada como uma variável aleatória) e, em vez disso, usamos declarações de condicionamento explícitas para todas as declarações de probabilidade.θ

  2. Isso significa que, na análise bayesiana, a densidade de amostragem é o objeto que você se referiu no caso clássico. (A função de verossimilhança é apenas a densidade de amostragem tratada como uma função do parâmetro com tomado para ser corrigido.) Isso também significa que a densidade na análise bayesiana não é condicional em . É a densidade marginal dos dados, que é dada por:P(X|θ)Pθ(X)θX=xP(X)θ

    P(X)=ΘP(X|θ)P(θ) dθ.
    Existem alguns lugares em sua pergunta em que você fica um pouco desleixado com as instruções de condicionamento e acaba equivocando as distribuições condicionais e marginais dos dados. Esse não é um grande problema na estatística clássica (já que todas as declarações de probabilidade estão implicitamente condicionadas ao parâmetro), mas causará problemas para você na análise bayesiana.

  3. A notação geralmente é usada apenas em estatísticas clássicas e é usada para denotar a mesma coisa que --- ie, é implicitamente a densidade condicional dos dados, dado o parâmetro . Seria incomum (e confuso) usar essa notação para a densidade da articulação.P(X;θ)Pθ(X)

  4. O método bayesiano pelo qual você maximiza a distribuição posterior em relação ao parâmetro é um método de estimativa pontual chamado estimativa máxima a posteriori (MAP) . Este é um método de estimativa pontual que fornece uma única estimativa pontual. Você deve ter em mente que os bayesianos geralmente se preocupam também em reter toda a densidade posterior, pois contém mais informações do que o estimador de MAP.

Ben - Restabelecer Monica
fonte
Obrigado por explicar Ben, significa muito! O segundo ponto é algo que eu queria que alguém dissesse explicitamente.
rranjik
Qual é a estatística clássica? É a primeira vez que li que todas as distribuições de probabilidade são parametrizadas. De onde você leu?
Nbro 12/11/19
@ nbro: Em certo sentido, essa afirmação é trivialmente verdadeira, pois você sempre pode mapear uma classe de distribuições de probabilidade para algum espaço de parâmetro (suficientemente grande). Na prática, a única circunstância em que isso não ocorreria é quando você está fazendo estatísticas não paramétricas. Em outros casos, os modelos nas estatísticas clássicas parametrizarão as distribuições como uma referência para elas, geralmente usando parâmetros que são números reais.
Ben - Restabelece Monica
4

Usarei uma notação simplificada nesta resposta. Se você estiver fazendo estatísticas clássicas, não é uma variável aleatória. Portanto, a notação está descrevendo um membro de uma família de funções ou densidades de probabilidade , na qual é o parâmetro espaço. Em uma análise bayesiana, é uma variável aleatória é uma função ou densidade de probabilidade condicional, que modela sua incerteza sobre para cada valor possível de . Depois que você termina sua experiência, não há mais incerteza sobreθp(x;θ){pθ(x)}θΘΘθp(xθ)xθx(torna-se dados / informações que você conhece) e você vê como uma função de , para esses dados "fixos" . Essa função de probabilidade vive na interseção entre os estilos clássico e bayesiano de inferência. Na minha opinião, o caminho bayesiano é melhor compreendido em termos de independência condicional . Sugiro que você escreva e explore a função de probabilidade do modelo de Bernoulli; representar graficamente; pense sobre seu significado antes e depois do experimento. Você mencionou que um bayesiano maximiza o posteriorp(xθ)=Lx(θ)θxLx(θ)π(θx). Esse não é necessariamente o caso. Existem outras maneiras de resumir a distribuição posterior. Essencialmente, o resumo escolhido depende da introdução de uma função de perda. Verifique a Escolha Bayesiana de Robert para aprender todos os detalhes sangrentos.

zen
fonte
11
Obrigado Paulo. Eu não era inteligente o suficiente para entender os detalhes! Eu aprecio seu tempo.
rranjik
11
De nada. Sugestão: anote e represente graficamente a densidade de probabilidade e a função de probabilidade de uma amostra aleatória de um modelo . x1,,xnU[0,θ]
Zen