Distribuição preditiva posterior vs estimativa da PAM

7

Considere um conjunto de dados de treinamento X, um modelo probabilístico parametrizado por θe uma prévia P(θ). Para um novo ponto de dadosx, podemos calcular P(x) usando:

  • uma abordagem totalmente bayesiana: a distribuição preditiva posterior P(x|X)=P(θ|X)P(x|θ)dθ
  • a probabilidade parametrizada pela estimativa máxima a posteriori :P(x|θMUMAP), Onde θMUMAP=argmaxθP(θ|X)

A abordagem totalmente bayesiana é sempre "melhor" que a abordagem MAP? Mais precisamente, a abordagem MAP é uma aproximação da abordagem bayesiana, no sentido em que esperamos queP(x|θMUMAP) é uma boa aproximação de P(x|X)?

eu normalmente
fonte
3
No primeiro caso, o seu pdf inclui toda a incerteza devido aos parâmetros do modelo θ. No segundo caso, não faz ...
Pascal

Respostas:

4

Costumo pensar dessa maneira. Na abordagem totalmente bayesiana, encontramos a integral

p(x|X)=p(x|θ)p(θ|X) dθ

como integrando todos os modelos possíveis (infinitamente muitos de fato), e fazemos uma previsão levando todos esses modelos "em consideração". Como isso geralmente é intratável, usamos a estimativa MAP da região posteriorp(θ|X), que corresponde à avaliação da mesma integral, mas desta vez usando uma parte infinitamente pequena de p(θ|X), ou seja, no máximo. Em outras palavras, multiplicamosp(x|θ) com uma nova "distribuição delta" localizada no máximo da distribuição posterior e integre-a para obter a previsão.

A diferença é, portanto, bastante óbvia: um tratamento totalmente bayesiano corresponde a um conjunto infinito de modelos, onde uma determinada previsão p(x|x,θ) é ponderado pela probabilidade do modelo p(θ|x), ou seja, modelos mais prováveis ​​contribuirão mais para a previsão. A estimativa do MAP dos parâmetros fornecerá a previsão de um modelo específico, o mais provável, de acordo com o teorema de Bayes. A teoria do conjunto nos mostra que geralmente obtemos uma melhor generalização e previsões mais precisas e, portanto, isso costuma ser "melhor" que o MAP.

Espero que isto ajude.

Jonathan Foldager
fonte
2

Supondo que seu modelo esteja especificado corretamente, a distribuição preditiva fornece uma estimativa do novo ponto de dados que leva em consideração toda a incerteza no parâmetro desconhecido θ. No segundo método, onde você apenas usa uma substituição de parâmetro usando seu estimador, está efetivamente tratando isso como um estimador perfeito do parâmetro desconhecido e, portanto, a distribuição "preditiva" resultante não leva em conta a incerteza no parâmetro desconhecidoθ. Por esse motivo, a última distribuição tenderá a ter menor variabilidade que a anterior e, se seu modelo for especificado corretamente, isso significa que subestima a variabilidade do novo ponto de dados. Portanto, sim, a distribuição preditiva é geralmente considerada como "melhor".

Aliás, esse tipo de comparação não é exclusivo das estatísticas bayesianas. Esses métodos que você está comparando são muito parecidos com os métodos análogos que ocorrem na metodologia frequentista, em que é possível usar uma quantidade essencial para obter um intervalo de confiança adequado para um novo ponto de dados (análogo a um intervalo preditivo bayesiano) ou pode-se simplesmente substituir o MLE como se fosse um valor de parâmetro conhecido e obtenha um intervalo para um novo ponto de dados da distribuição de amostragem (análogo ao método de substituição de parâmetro Bayesiano).

Ben - Restabelecer Monica
fonte