Considere um conjunto de dados de treinamento , um modelo probabilístico parametrizado por e uma prévia . Para um novo ponto de dados, podemos calcular usando:
- uma abordagem totalmente bayesiana: a distribuição preditiva posterior
- a probabilidade parametrizada pela estimativa máxima a posteriori :, Onde
A abordagem totalmente bayesiana é sempre "melhor" que a abordagem MAP? Mais precisamente, a abordagem MAP é uma aproximação da abordagem bayesiana, no sentido em que esperamos que é uma boa aproximação de ?
bayesian
maximum-likelihood
posterior
eu normalmente
fonte
fonte
Respostas:
Costumo pensar dessa maneira. Na abordagem totalmente bayesiana, encontramos a integral
como integrando todos os modelos possíveis (infinitamente muitos de fato), e fazemos uma previsão levando todos esses modelos "em consideração". Como isso geralmente é intratável, usamos a estimativa MAP da região posteriorp ( θ | X) , que corresponde à avaliação da mesma integral, mas desta vez usando uma parte infinitamente pequena de p ( θ | X) , ou seja, no máximo. Em outras palavras, multiplicamosp (x∗| θ) com uma nova "distribuição delta" localizada no máximo da distribuição posterior e integre-a para obter a previsão.
A diferença é, portanto, bastante óbvia: um tratamento totalmente bayesiano corresponde a um conjunto infinito de modelos, onde uma determinada previsãop ( x | x , θ ) é ponderado pela probabilidade do modelo p ( θ | x ) , ou seja, modelos mais prováveis contribuirão mais para a previsão. A estimativa do MAP dos parâmetros fornecerá a previsão de um modelo específico, o mais provável, de acordo com o teorema de Bayes. A teoria do conjunto nos mostra que geralmente obtemos uma melhor generalização e previsões mais precisas e, portanto, isso costuma ser "melhor" que o MAP.
Espero que isto ajude.
fonte
Supondo que seu modelo esteja especificado corretamente, a distribuição preditiva fornece uma estimativa do novo ponto de dados que leva em consideração toda a incerteza no parâmetro desconhecidoθ . No segundo método, onde você apenas usa uma substituição de parâmetro usando seu estimador, está efetivamente tratando isso como um estimador perfeito do parâmetro desconhecido e, portanto, a distribuição "preditiva" resultante não leva em conta a incerteza no parâmetro desconhecidoθ . Por esse motivo, a última distribuição tenderá a ter menor variabilidade que a anterior e, se seu modelo for especificado corretamente, isso significa que subestima a variabilidade do novo ponto de dados. Portanto, sim, a distribuição preditiva é geralmente considerada como "melhor".
Aliás, esse tipo de comparação não é exclusivo das estatísticas bayesianas. Esses métodos que você está comparando são muito parecidos com os métodos análogos que ocorrem na metodologia frequentista, em que é possível usar uma quantidade essencial para obter um intervalo de confiança adequado para um novo ponto de dados (análogo a um intervalo preditivo bayesiano) ou pode-se simplesmente substituir o MLE como se fosse um valor de parâmetro conhecido e obtenha um intervalo para um novo ponto de dados da distribuição de amostragem (análogo ao método de substituição de parâmetro Bayesiano).
fonte